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A First Course in Machine Learning 


本 书 是 一 本 机 器 学 习 入 门 教程 ， 包 含 了 数学 和 统计 学 的 核心 技术 ， 用 于 帮助 理解 一 些 常 用 的 机 器 
学 习 算法 。 书 中 展示 的 算法 涵盖 了 机 器 学 习 的 各 个 重要 领域 : 分 类 、 聚 类 和 投影 。 本 书 对 一 小 部 分 算 
法 进行 了 详细 描述 和 推导 ， 而 不 是 简单 地 将 大 量 算法 罗列 出 来 。 

本 书 通过 大 量 的 MATLAB/Octave 脚 本 将 算法 和 概念 由 抽象 的 等 式 转化 为 解决 实际 问题 的 工具 ， 
利用 它们 读者 可 以 重新 绘制 书 中 的 插图 ， 并 研究 如 何 改变 模型 说 明和 参数 取 值 。 


本 书 特色 
e 介绍 机 器 学 习 技术 及 应 用 的 主要 算法 和 思想 。 
e 为 读者 进一步 探索 机 器 学 习 领 域 中 的 特定 方向 提供 起 点 。 
e 不 需要 太 多 的 数学 知识 ， 穿 插 在 文中 的 注解 框 提供 相应 的 数学 解释 。 
e 每 章 末 均 包含 练习 。 
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文艺 复兴 以 降 ， 源远流长 的 科学 精神 和 逐步 形成 的 学 术 规 范 ， 使 西方 国家 在 自然 科学 的 
各 个 领域 取得 了 芍 断 性 的 优势 ;也 正 是 这 样 的 传统 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 
家 辈出 、 独 领 风 骚 。 在 商业 化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 越 紧密 地 结合 ， 计 算 机 
学 科 中 的 许多 泰山 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科 学 著作 ， 不 仅 璧 
划 了 研究 的 范畴 ， 还 揭示 了 学 术 的 源 变 ， 既 遵循 学 术 规范 ， 又 自 有 学 者 个 性 ， 其 价值 并 不 会 
因 年 月 的 流逝 而 减退 。 

近年 ， 在 全 球 信 息 化 大 潮 的 推动 下 ， 我国 的 计算 机 产业 发 展 迅猛 ， 对 专业 人 才 的 需求 日 
益 迫 切 。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ;而 专业 教材 的 建设 在 教育 战略 
上 显得 举足轻重 。 在 我 国信 息 技 术 发 展 时 间 较 短 的 现状 下 ， 美 国 等 发 达 国家 在 其 计算 机 科学 
发 展 的 几 十 年 间 积 淀 和 发 展 的 经 典 教 材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国外 优秀 计 
算 机 教材 将 对 我 国 计 算 机 教育 事业 的 发 展 起 到 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 设 真正 
的 世界 一 流 大 学 的 必由之路 。 

机 械 工 业 出 版 社 华章 公司 较 早 意识 到 “出 版 要 为 教育 服务 >”。 自 1998 年 开始 ， 我 们 就 将 
工作 重点 放 在 了 六 选 、 移 译 国 外 优秀 教材 上。 经 过 多 年 的 不 懈 努 力 ， 我 们 与 Pearson， 
McGraw- Hill，Elsevier，MIT，John Wiley & Sons，Cengage 等 世界 著名 出 版 公司 建立 了 
良好 的 合作 关系 ， 从 他 们 现 有 的 数 百 种 教材 中 甄选 出 Andrew S. Tanenbaum，Bjarne 
Stroustrup, Brain W. Kernighan, Dennis Ritchie, Jim Gray, Afred V. Aho，John E. 
Hopcroft, Jeffrey D. Ullman, Abraham Silberschatz, William Stallings, Donald E. Knuth, 
John L. Hennessy，Larry L. Peterson 等 大 师 名 家 的 一 批 经 典 作 品 ， 以 “计算 机 科学 丛书 ” 
为 总 称 出 版 ， 供 读者 学 习 、 研 究 及 珍藏 。 大 理 石 纹理 的 封面 ， 也 正体 现 了 这 套 丛 书 的 品位 和 
格调 。 

“计算 机 科学 丛书 ”的 出 版 工作 得 到 了 国内 外 学 者 的 易 力 囊 助 ， 国 内 的 专家 不 仅 提 供 了 
中 肯 的 选 题 指导 ， 还 不 辞 劳苦 地 担任 了 翻译 和 审 校 的 工作 ;而 原 书 的 作者 也 相当 关注 其 作品 
在 中 国 的 传播 ， 有 的 还 专程 为 其 书 的 中 译本 作 序 。 迄 今 , “计算 机 科学 丛书 ”已 经 出 版 了 近 
两 百 个 品种 ， 这 些 书籍 在 读者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采 用 为 正式 教材 和 参考 书 
籍 。 其 影印 版 “经 典 原版 书库 ”作为 姊妹 篇 也 被 越 来 越 多 实施 双语 教学 的 学 校 所 采用 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因 素 使 我 们 的 
图 书 有 了 质量 的 保证 。 随 着 计算 机 科学 与 技术 专业 学 科 建 设 的 不 断 完善 和 教材 改革 的 逐渐 深 
化 ， 教 育 界 对 国外 计算 机 教材 的 需求 和 应 用 都 将 步 和 人 一 个 新 的 阶段 ， 我 们 的 目标 是 尽 善 尽 
美 ， 而 反馈 的 意见 正 是 我 们 达到 这 一 终极 目标 的 重要 帮助 。 华 章 公司 欢迎 老师 和 读者 对 我 们 
的 工作 提出 建议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 : 

华章 网 站 : www. hzbook. com 

电子 邮件 : hzjsj@hzbook. com 

联系 电话 : (010) 88379604 


了 Si en ha 华章 教育 
联系 地 址 : 北京 市 西城 区 百 万 庄 南 街 1 号 华章 科技 图 书 出 版 中 心 
邮政 编码 : 100037 
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机 器 学 习 起 初 只 是 人 工 智能 〈AD) 的 一 个 研究 分 支 ， 随 着 其 他 研究 分 支 的 成 熟 发 展 或 逐步 淡化 ， 
目前 机 器 学 习 发 展 成 为 AI 中 最 具 活 力 的 研究 方向 。 一 方面 它 源 于 机 器 学 习 ， 已 经 成 为 人 工 智能 理论 研 
究 与 应 用 研究 的 桥梁 ， 另 一 方面 ， 随 着 计算 机 技术 的 发 展 ， 机 器 学 习 也 日 益 成 为 计算 机 科学 的 重要 研 
究 领 域 之 一 。 此 外 ， 模 式 识别 与 数据 挖掘 的 核心 算法 大 多 也 与 机 器 学 习 有 关 。 

机 器 学 习作 为 人 工 智 能 理论 研究 的 一 部 分 ， 需 要 一 定 的 数学 知识 作为 基础 。 本 书 就 是 为 计算 机 等 
信息 类 专业 的 学 生理 解 最 流行 的 机 器 学 习 算法 提供 核心 数学 知识 和 统计 技术 。 本 书 并 没有 面面俱到 地 
介绍 所 有 的 机 器 学 习 算法 ， 而 是 给 出 部 分 代表 性 算法 的 核心 思想 及 详细 描述 。 最后， 本 书 主要 涉及 基 
于 示例 的 归纳 学 习 ， 至 于 神经 网 络 等 进化 学 习 以 及 关于 agent 与 环境 交互 的 强化 学 习 这 两 大 类 机 器 学 
习 的 相关 内 容 ， 请 读者 参阅 其 他 书籍 。 

本 书 共 7 章 。 第 1、2 章 介 绍 如 何 选 择 线性 模型 参数 以 对 观测 数据 做 出 预测 。 第 1 章 给 出 通过 最 小 
化 损失 函数 来 学 习 模型 参数 的 方法 。 第 2 章 介 绍 最 大 似 然 函 数 的 方法 。 第 3 章 介 绍 机 器 学 习 中 的 贝 叶 
斯 方法 。 第 4 章 介绍 计算 后 验 的 三 种 近似 方法 。 第 5 章 及 后 续 各 章 涉及 机 器 学 习 领 域 分 类 、 聚 类 和 预 
测 方面 的 主要 算法 ， 其 中 第 5 章 关 注 监 督学 习 ; 第 6、7 章 介绍 无 监督 学 习 ， 第 6 章 研究 K 均值 和 混合 
模型 两 种 聚 类 方法 ， 第 7 章 介绍 通过 将 高 维 数据 投影 到 一 个 低 维 空间 ， 对 数据 进行 可 视 化 或 特征 选择 
的 方法 。 本 书 还 包括 词汇 表 和 索引 。 

本 书 适合 作为 高 等 院 校 计算 机 、 自 动 化 等 专业 本 科 生 及 研究 生 的 机 器 学 习 教 材 。 同 时 ， 本 书 也 是 
机 器 学 习 领 域 的 研究 者 或 者 那些 想 了 解 和 应 用 当前 机 器 学 习 技 术 的 工作 人 员 的 一 本 宝贵 的 参考 资料 。 

本 书 的 翻译 工作 由 郭 茂 祖 主持 ， 郭 茂 祖 审 校 了 全 部 译 稿 ， 邢 林 林 负 责 校 对 。 其 中 ， 郭 茂 祖 翻译 了 
前 言 和 第 1 章 ， 王 春 宇 翻译 了 第 2、3 章 ， 刘 扬 翻 译 了 第 4、5 章 和 词汇 表 、 索 引 ， 刘 晓 燕 翻译 了 第 6、 
7 章 。 在 本 书 的 翻译 过 程 中 ， 王 娟 、 刘 菇 、 徐 云 刚 、 滕 志 霞 、 李 艳 娟 、 车 饥 、 程 爽 、 史 文 丽 、 孟 宪 伟 、 
代 启 国 、 李 晋 、 吴 伟 宁 、 徐 立秋 给 予 了 很 多 帮助 ， 对 他 们 表示 由 衷 的 感谢 。 
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目前 机 器 学 习 日 益 成 为 计算 机 科学 重要 的 实践 、 研 究 与 开发 领域 之 一 ， 一 方面 这 反映 在 
它 的 学 术 研 究 规模 上 ， 另 一 方面 反映 在 新 的 机 器 学 习 从 业 人 员 遍 布 于 主要 的 国际 银行 和 金融 
机 构 ， 以 及 微软 、 谷 歌 、 雅 虎 和 亚马逊 等 公司 。 

从 某 种 角度 来 讲 ， 这 种 发 展 源 于 人 们 对 世界 认 知 方式 的 数量 和 种 类 的 增加 。 一 个 特别 显 
著 的 例子 是 ， 在 首 个 基因 组 测序 完成 之 前 ， 不 断 涌现 出 了 各 种 生物 检测 新 技术 。 不 久 前 ， 检 
测 生物 体 的 复杂 分 子 状态 是 难以 想象 的 ， 因 为 这 已 经 远 远 超出 了 我 们 的 认识 能 力 。 现 在 ， 机 
器 学 习 方 法 在 生物 体 中 有 用 分 子 结构 提取 方面 的 广泛 应 用 ， 使 其 成 为 可 能 。 

本 书 改 编 自 英国 格拉 斯 哥 大 学 计算 机 科学 学 院 机 器 学 习 课程 的 讲义 ， 该 课程 包括 20 学 
时 的 授课 和 10 学 时 的 实验 ， 面 向 高 年 级 本 科 生 开设 并 由 研究 生 讲 授 。 如 此 少 的 教学 时 数 不 
可 能 涵盖 机 器 学 习 所 有 的 内 容 ， 所 以 该 课 的 目的 是 为 理解 流行 的 机 器 学 习 算 法 提供 核心 数学 
知识 和 统计 技术 ， 并 描述 其 中 部 分 算法 ， 这 些 算 法 涵盖 了 机 器 学 习 中 的 分 类 、 聚 类 和 投影 
主要 问题 。 通 过 本 课程 的 学 习 ， 学 生 应 该 具备 通过 考察 机 器 学 习 相关 文献 来 寻求 适合 他 们 所 
需 方法 的 知识 和 能 力 ， 和 希望 本 书 的 读者 也 能 做 到 这 一 点 。 

鉴于 选 学 该 课 学 生 的 数学 水 平 参 差 不 齐 ， 我 们 只 假定 需要 很 少 的 数学 知识 ， 计 算 机 科 
学 、 工 程 类 、 物 理学 (或 其 他 数值 处 理 类 学 科 )〉 的 本 科 生 阅读 本 书 应 该 没有 问题 ， 没 有 以 上 
经 历 的 读者 也 可 以 阅读 本 书 ， 因 为 穿插 在 文中 的 注解 框 内 给 出 了 相应 的 数学 解释 。 此 外 ， 突 
出 强调 了 重要 公式 (公式 加 阴影 )， 在 继续 阅读 前 ， 花 些 时 间 理 解 这 些 公式 是 值得 的 。 

选 学 该 课 的 学 生 通 常会 发 现 其 中 的 实践 环节 非常 有 用 ， 实 验 有 助 于 将 涉及 的 各 种 算法 和 
概念 由 抽象 的 等 式 转化 为 解决 实际 问题 的 工具 。 我 们 已 通过 大 量 的 MATLAB® /Octave” 软 
件 脚 本 完成 以 上 转化 ， 这 些 脚本 可 通过 相关 的 网 页 并 参考 本 书 正文 获得 ， 利 用 它们 读者 能 够 
重新 绘制 书 中 的 插图 ， 并 研究 如 何 改 变 模 型 说 明和 参数 取 值 。 

最 后 ， 本 书 选 择 的 机 器 学 习 方法 是 我 们 认为 学 生 应 该 掌握 的 ， 在 有 限 的 篇 幅 和 时 间 内 ， 
更 有 必要 给 出 一 小 部 分 算法 的 详细 描述 和 研究 进展 ， 而 不 是 泛泛 地 描述 许多 算法 ， 因 而 多 数 
读者 在 本 书 中 可 能 找 不 到 他 们 最 喜欢 的 算法 ! 


Simon Rogers 
Mark Girolami 





晶 免费 数学 软件 环境 ， 源 于 www. gnu. org/software/octave/。 
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A First Course in Machine Learning 


线性 建 模 : 最 小 二 乘法 





在 有 着 广泛 应 用 的 机 器 学 习 中 ， 一 个 重要 且 普 遍 的 问题 是 学 习 或 者 推断 属性 变量 与 相应 
的 响应 变量 或 目标 变量 之 间 的 函数 关系 ， 使 得 对 任何 一 个 属性 集合 ， 我 们 可 以 预测 其 响应 。 
例如 ， 我 们 可 能 想 要 建立 一 个 能 够 执行 疾病 诊断 的 模型 。 为 了 构建 这 个 模型 ， 需 要 使 用 一 个 
数据 集 ， 这 个 数据 集 是 从 已 知 疾病 状态 〈 响 应 ， 健 康 或 患 病 ) 的 患者 中 得 到 的 测量 〈 属 性 ， 
如 血压 、 心 率 、 体 重 等 ) 的 集合 。 在 完全 不 同 的 例子 中 ， 我 们 希望 给 顾客 提出 建议 。 在 这 种 
情况 下 ， 我 们 能 够 建立 一 个 关于 某 个 顾客 以 前 买 过 物品 的 描述 〈 属 性 ) 和 该 顾客 最 终 是 否 喜 
欢 该 产品 〈 响 应 ) 的 模型 。 这 个 模型 可 以 帮助 我 们 预测 顾客 可 能 喜欢 的 物品 ， 并 因此 进行 推 
荐 。 这 一 章 将 涉及 许多 更 重要 的 应 用 领域 。 


1.1 线性 建 模 


首先 ， 通 过 一 个 实际 例子 来 考虑 机 器 学 习 最 直接 的 学 习 问 题 一 一 线性 建 模 2 : 在 属性 与 
响应 之 间 学 习 线性 关系 。 图 1-1 显示 了 从 1896 年 开始 ， 每 次 奥林匹克 运动 会 (简称 奥运 会 ) 
男子 100 米 比 赛 赢 得 金牌 所 需 的 比赛 时 间 。 我 们 的 目标 是 用 这 些 数据 学 习 一 个 函数 模型 ， 此 
模型 依赖 于 奥运 会 举办 年 份 和 100 米 获 胜 时 间 ， 并 且 用 这 个 模型 预测 将 来 比赛 中 的 获胜 时 
间 。 显 然 ， 年 份 并 不 是 影响 获胜 时 间 的 唯一 因素 ， 如 果 我 们 认真 对 待 这 个 预测 ， 可 能 还 会 考 
虑 其 他 因素 (例如 ， 主 要 参赛 者 的 最 近 情 况 )。 然 而 ， 通 过 图 1-1 可 以 看 出 ,年 份 和 获胜 时 
间 之 间 至 少 存在 一 个 统计 关系 ( 它 不 可 能 是 因果 关系 一 一 时 间 的 流逝 并 不 是 获胜 时 间 下 降 的 
直接 原因 )， 并 且 这 个 例子 足以 帮助 我 们 引入 和 发 展 线 性 建 模 的 主要 思想 。 





12 di 和 T T T T 
11.5[ ] 
. 
zs le ee. J 
nn 
2 ee ee e 
吓 
+ . 
”10.5 。 
. 
oe. . 
让 . 
. 
四 
10r- ee 。。。 | 
ee. 
. 








1 L 1 


9.5 ， 
1880 1900 1920 1940 1960 1980 2000 2020 
年 





图 1-1 从 1896 年 开始 ， 夏 季 奥 运 会 男子 100 米 的 获胜 时 间 。 注 意 : 在 1914 年 、1940 年 和 1944 年 ， 
由 于 两 次 世界 大 战 而 中 断 了 这 个 比赛 


加 这 里 将 要 考虑 的 模型 类 型 称 为 回归 ， 它 最 初 被 Francls Galton (1877 年 ) 用 在 遗传 学 方面 。 当 时 Francls Galton 
研究 智力 如 何 从 一 代 传 到 一 代 〈 或 者 不 是 这 样 ， 由 于 这 种 情况 也 是 可 能 的 ) 。 此 术语 后 来 被 在 统计 背景 下 发 展 
Galton 工作 的 统计 学 家 所 采用 。 








第 1 章 线性 建 模 : 最 小 二 乘法 


1.1.1 定义 模型 


首先 将 模型 定义 为 一 个 将 输入 属性 〈 在 这 个 例子 中 ， 是 举办 奥运 会 的 年 份 ) 映射 到 输出 
或 者 目标 值 〈 获 胜 时 间 ) 的 函数 。 对 于 属性 ， 我 们 用 年 份 的 数值 (如 1980)， 尽 管 还 有 另外 
一 个 公式 〈 例 如 ， 从 第 一 届 运 动 年 开始 ，1980 一 1896 王 84)， 这 对 潜在 的 假设 没有 实质 差别 。 

有 许多 函数 可 以 定义 这 个 有 映射。 一般 地 ， 这 个 函数 将 以 工 〈 奥 运 会 年 份 ) 为 输入 ， 并 且 
将 返回 + 用 秒表 示 的 获胜 时 间 )。 也 就 是 说 , t 是 xz 的 函数 。 数 学 上 ， 把 这 个 记 为 += f(z)。 
在 有 些 情况 下 ,我 们 需要 知道 的 是 用 来 评估 函数 的 zx。 例如 ， 如 果 f(x) 三 sin(x), 或 者 
f(z) 二 x+， 那么 对 任何 x， 我 们 可 以 计算 1。 一 般 地 ,我 们 需要 更 灵活 并 且 我 们 的 模型 可 能 
有 一 个 相关 参数 的 集合 。 例 如 ，* 一 az 有 一 个 参数 a， 此 参数 需要 用 某 种 方法 定义 。 在 机 器 
学 习 中 ， 从 一 个 合适 的 数据 集中 学 习 模 型 参数 是 一 个 普遍 的 问题 。 我 们 将 用 t 王 f(x;a) 来 
表示 x 与 参数 4 之 间 的 函数 /0 。 


1.1.2 模型 假设 


为 了 便于 选择 特定 的 模型 来 使 用 ， 我 们 需要 做 一 些 假 设 。 在 这 个 阶段 的 初始 假设 是 : 
工 与 上 之 间 的 关系 是 线性 的 〈 参 见 注解 1.1)。 





注解 1. 1 (线性 关系 ) : 等 式 
y 王 7 十 c 
这 里 mx 和 < 是 常量 , 在 zx 和 y 之 间 定 义 了 一 个 线性 关系 。 它 称 为 是 线性 的 ， 因 为 从 直观 
上 看 , 在 x 与 y 之 间 的 关系 呈 一 条 直线 。 下 面 的 等 式 是 非 线 性 的 ， 因 为 变量 zx 和 y 的 形 
式 更 复杂 : 
yy 一 az2z 十 cy 一 sin(z),Vy = mz+te 
m 和 < 的 值 不 影响 关系 的 线性 性 。 例 如 ， 如 下 都 表示 x 和 y 之 间 的 线性 关系 : 


y= 二 mz 二 c ,y= xsin(m) 二 +c 











或 者 可 以 表述 为 : 

图 1-1 中 的 数据 可 以 用 一 条 直线 模拟 。 

或 者 : 

每 M 和 年， 获胜 时 间 下 降 相 同 数量 。 

观察 图 1-1， 我 们 可 以 看 到 这 个 假设 并 不 是 完全 满足 。 然 而 ， 我们 希望 它 是 一 个 可 用 的 
模型 ， 并 且 它 可 以 对 将 来 的 获胜 时 间 做 出 预测 。 

满足 我 们 假设 的 最 简单 模型 是 
t= jz) 一 工 
获胜 时 间 等 于 奥运 会 年 份 。 工 大 于 等 于 1880,， z 小 于 等 于 12， 随 着 年 份 的 增长 获胜 时 间 在 下 
降 ， 这 个 事实 说 明 这 个 模型 是 不 适当 的 。 添 加 一 个 单 参 数 得 到 : 
t= f(rz;w) = wr 

这 里 zw 为 正 或 者 负 。 这 个 改进 的 模型 产生 了 一 条 直线 ， 通 过 选择 w， 可 以 使 这 条 直线 有 任 
何 梯度 。 这 个 模型 在 灵活 性 (flexibility) 方面 有 所 提升 ， 但 是 它 仍 然 是 受 限 制 的 ， 因 为 在 
奥运 会 年 份 0 年 时 ， 模 型 预测 的 获胜 时 间 是 wX0==0。 通 过 这 个 数据 可 以 看 出 ， 这 是 不 现实 
的 一 一 按照 数据 的 一 般 趋 势 ， 在 0 年 时 ， 获 胜 时 间 实 际 上 应 该 是 一 个 相当 大 的 数 。 通 过 对 模 


型 添加 多 个 参数 ， 可 以 克服 这 个 限制 ; 


第 1 章 线性 建 模 : 最 小 二 乘法 


t= f(z;wo ,wi) rep 二 xwzx (1-1) 


这 是 直线 的 标准 等 式 ， 这 个 等 式 许 多 读者 以 前 都 遇 到 过 。 现 在 学 习 任 务 是 用 图 1-1 的 数据 为 
两 个 参数 zw 和 w 选择 合适 的 值 。 这 两 个 参数 常常 认为 是 截 距 (w,。， 直 线 与 1 轴 的 截 距 ) 
和 梯度 〈re ， 直 线 的 梯度 )， 以 及 改变 它们 的 影响 (effect)， 如 图 1-2 所 示 (MATLAB 脚 
本 : plotlinear.m) (参见 练习 EX 1. 1) 。 



































a) zu 的 增加 改变 了 直线 与 / 轴 的 相交 点 b) w 的 增加 改变 了 直线 的 梯度 
图 1-2 在 式 (1-1) 定义 的 线性 模型 中 ， 改 变 ww 和 wi 带 来 的 影响 


1.1.3 定义 什么 是 好 的 模型 


为 了 选择 在 某 种 方式 下 最 好 的 zw 和 wi 值 ， 我 们 需要 定义 最 好 的 意义 是 什么 。 常 识 表 
明 所 谓 最 好 的 解 是 由 zw 和 w' 的 一 些 值 组 成 ， 这 些 值 可 以 产生 一 条 能 尽 可 能 与 所 有 数据 点 
接近 的 直线 。 衡 量 一 个 特定 模型 与 数据 点 接近 程度 的 普遍 方法 是 真正 的 获胜 时 间 与 模型 预测 
的 获胜 时 间 之 间 的 平方 差 。 用 zx,、 分 别 表示 第 n 次 的 奥运 会 年 份 和 获胜 时 间 ， 平 方差 定 
义 为 : 

(ts CO— fx ;wo sw) 7 

这 个 数值 越 小 ， 模 型 在 zx, 处 越 接 近 t,。 对 差 值 取 平 方 是 很 重要 的 。 如 果 不 这 样 做 ， 就 可 以 
通过 连续 增加 f(x, ;wo ,wi) 来 无 限 减 小 这 个 量 。 

这 个 表达 称 为 平方 损失 函数 〈squard loss function)， 因 为 它 描述 了 使 用 f(x ;vwo ,wi) 
模拟 t, 所 损失 的 精度 。 在 本 章 中 ,我们 用 LO) 表示 损失 函数 。 在 这 种 情况 下 ， 


Lrltaof ros mm)) friwow)) 0 
是 ?年 的 损失 。 损 失 总 是 正 的 ， 并 且 损 失 越 小 ， 函 数 描述 这 个 数据 就 越 好 。 由 于 对 于 所 有 的 
NN 年， 我 们 想 有 一 个 低 的 损失 ， 所 以 考虑 在 整个 数据 集 上 的 平均 损失 ， 即 
£ = Lal, fs si)) 0 9 
这 是 每 N 年 的 平均 损失 值 。 它 越 低 越 好 。 因 此 我 们 将 调整 w。 和 w' 值 来 产生 一 个 模型 ， 此 
模型 得 到 平均 损失 的 最 低 值 C 。 和 寻找 zw 和 zw 的 最 好 值 ， 用 数学 表达 式 可 以 表示 为 
arg min >) Ln ts, fx ;to ,tw )) 
argmin 项 是 数学 上 “找到 最 小 化 参数 ”的 缩写 。 在 这 个 例子 中 ， 参 数 是 zw 和 wi 的 值 同时 
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最 小 化 的 表达 式 是 平均 损失 。 图 1-3 显示 了 一 个 假设 的 损失 ， 它 是 单 参数 记 的 函数 。 使 人 最 
小 的 参数 w 的 值 是 双 王 5。 历 史上 ， 平 方 损失 的 最 小 化 是 函数 估计 的 最 小 二 乘 误 差 法 的 基 
础 ， 它 是 由 Gauss 和 Legendre (1809 年 ) 在 预测 行星 运动 时 发 展 的 方法 。 
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图 1-3 单 参数 〈w) 损失 函数 的 例子 。 虚 线 表明 了 w 一 5 时 损失 最 小 
其 他 的 损失 函数 适合 回归 。 例 如 ， 男 一 个 常用 的 是 绝对 损失 : 


GS fs | 
平方 损失 是 非常 常见 的 选择 ， 部 分 上 由 于 它 找 到 w。 和 zw 的 最 好 值 相对 直接 这 一 事实 一 一 
我 们 可 以 得 到 一 个 分 析 解 。 然 而 ， 现 代 计 算 能 力 已 经 降低 了 数学 方便 的 重要 性 一 一 在 多 个 适 
合 的 数据 上 选择 一 个 方便 的 损失 函数 不 再 有 任何 借口 。 显 然 ， 我们 的 目标 是 介绍 对 平方 损失 
合适 的 通用 模型 概念 。 值 得 注意 的 是 ， 在 许多 情况 下 ， 还 有 其 他 一 些 模型 是 可 行 的 并 且 可 能 
是 更 适合 的 。 


1.1.4 最 小 二 乘 解 : 一 个 有 效 的 例子 


简要 说 明 我 们 的 数据 集 由 n 二 1，…，NN 观测 值 构成 ， 它 们 中 的 每 一 个 由 一 个 年 x 和 时 
间 〈 秒 ) 4 构成 。 
我 们 继续 尽力 寻找 一 个 函数 关系 ， 此 函数 关系 用 一 个 线性 模型 定义 为 
f(xywo sw) = mo wix (1=-4) 
我 们 决定 将 用 最 小 二 乘 损 失 函 数 来 选择 适合 的 w。 和 wi。 用 表达 式 中 的 线性 模型 替代 平均 损 
失 ， 在 括号 外 面相 乘 结果 为 


N 
£= HD Lbs fz sw rw)) 
= ep ny 
= 有 Cw + wz,))’ 


N 
一 > (wi zi + 2wi Trtwo — 2rw1 Trt + Ww — 2rwwot, + 2) 
n=1 
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一 方 忆 (wii 玫 十 2mrm(w 一 二 十 三 一 2 和 十 克 (1-5) 


对 损失 函数 求 导 数 : 在 L 的 最 小 值 点 处 ， 其 关于 rw 和 wi 的 偏 导数 一 定 是 0 〈 参 见 注 
解 1.2)。 因 此 ， 求 出 偏 导数 ， 使 其 等 于 0 并 对 rz 和 zw 求解 ， 解 w。 和 zw 可 以 使 我 们 得 到 
最 小 值 。 从 zw 开始 ， 我 们 知道 在 式 〈1-5) 中 不 包含 wi 的 项 可 以 被 忽略 〈 由 于 这 些 项 关于 
wi 的 偏 导数 为 0) 。 去 掉 这 些 项 得 到 


N 
> Lw? xz? 十 2rwi zzoo — 2rw1 xnt, | 
n=1 





注解 1. 2 (拐点 ): 通过 搜索 使 函数 梯度 Se 为 0 的 点 ， 可 以 找到 函数 J(w) 的 拐点 
(可 能 对 应 于 最 小 值 )。 为 了 确定 一 个 拐点 是 最 大 值 、 最 小 值 还 是 鞍点 ， 需 要 检验 其 2 阶 
导数 一 A 。 在 拐点 凶 ， 如 果 其 2 阶 导数 是 正 的 ， 那 么 这 个 拐点 是 最 小 值 点。 下 面 
三 





























1 
1 
1 
1 
1 

es | 

LS 2 2.9 3 
w 


一 般 地 ， 一 个 函数 可 能 有 多 个 拐点 。 一 个 有 趣 的 特殊 情况 是 ， 如 果 函 数 的 2 阶 导数 是 正 
的 常量 ， 那 么 这 个 函数 仅 有 一 个 最 小 值 点 。 


在 求 偏 导 数 之 前 ， 我 们 重新 排列 这 个 表达 式 ， 使 它 更 简单 。 尤 其 是 ， 把 没有 下 标 n 的 项 
放 在 和 的 外 面 并 重新 排列 得 到 的 结果 


vw? 坟 ( >») 十 2zw 六 > cm 一 性 ) ) 
如 下 表达 式 给 出 了 其 关于 wi 的 偏 导数 
= 2zui (Da)+ 向 ( 王 rm 一) (1-6) 
现在 对 wo 做 相同 的 操作 。 去 掉 不 含 wo 的 项 后 ， 得 到 


N 
< >» [oa 二 2wi no 一 2vwot, | 
n=1 


1 














另外， 我 们 在 求 导 之 前 重新 排列 它 。 将 没有 下 标 n 的 项 移 到 和 的 外 面 (注意 De = 
Nw? ) ， 结 果 为 
1 N 1 N 
Two 十 2zoozui N( 2 7) 一 可 N( 2) 
对 wo 求 偏 导数 得 
ac 1 N 一 N _ 
Bo — 2 + 2 N( 277) N(27) (1 7 
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导数 等 于 0: 现在 我 们 有 了 损失 函数 关于 zw 和 wm 的 偏 导 数 表达 式 。 为 了 找到 对 应 于 拐 
点 (希望 是 最 小 值 点 ) 的 zw 和 ww 值 ， 必 须 使 这 些 表达 式 为 0 并 且 对 rw 和 wi 求解 。 从 关 
于 wo 的 表达 式 开始 。 将 式 (1-7) 设置 为 0 并 且 对 wo 求解 : 


2 + 2 N( Dn) (Dh) =0 


zm 一 下 (如) 一 中 负 加) 
"(De) 
将 平均 获胜 时 间 表 示 为 ;一直 24 以 及 平均 奥运 会 年 份 为 二 识 了 z， 在 扣 点 全 处 ， 
可 以 重 写 ww 值 的 表达 式 为 
® 一 1 一 wz {1-8) 
我 们 从 这 个 表达 式 可 以 洞悉 到 什么 ? 这 个 新 的 表达 式 是 初始 表示 1, 一 wi 十 wuz,) 的 重 


新 排列 ， 这 里 t, 和 x, 已 经 被 平均 值 i 和 取代 。 考 虑 在 NN 个 数据 点 上 的 平均 函数 值 ， 表 达 
式 如 下 : 


N N 
2 fers so) 一 ND 十 wix,) = Wo 二 wit 


平均 获胜 时 间 通 过 7 给 出 ， 因 此 在 式 (1-8) 中 ， 选 择 码 来 确保 函数 的 平均 值 等 于 平均 获胜 
时 间 。 直 观 地 ， 用 这 种 方式 匹配 的 平均 值 似乎 是 非常 有 意义 的 。 

在 我 们 用 式 〈1-6) 得 到 关于 加 (在 拐点 处 的 值 ， 见 注解 1.2) 的 表达 式 之 前 ， 值 得 
简要 地 检验 它 的 2 阶 导 数 ， 以 确保 它 是 最 小 值 点 。 再 一 次 对 式 (1-6) 关于 wi 求 导 并 对 
式 (1-7) 关 于 wo 求 导 ， 结 果 为 : 





i 当 
= DE 
2 硅 < 
一 Ee: 
Br 2 (4-9 


这 两 个 量 一 定 都 是 正 的 。 这 说 明 它 仅 有 一 个 拐点 并 且 此 拐点 对 应 于 损失 函数 的 最 小 值 。 

我 们 将 此 过 程 应 用 于 关于 (最 小 化 损失 函数 的 rw 的 值 ) 的 表达 式 中 。 这 个 表达 式 依 
赖 于 w， 这 暗示 了 对 于 特定 的 ww ， 我 们 知道 最 好 的 w。。 式 〈1-6) 用 我 们 的 表达 式 蔡 代 最 
好 的 w。( 式 (1-8)) 并 重新 排列 ， 我 们 得 到 仅 含 w 项 的 表达 式 : 


人 
一 ww (D+ 2( Da wit)) 
2 


依然 用 == (1/N) Dz 来 简化 这 个 表达 式 并 合并 包含 ww, 的 项 : 


o£L_ 2 | (D2)) zz| +277—2 (Dz) 


Owi 


最 后 ， 通 过 将 这 个 偏 导 数 设 置 为 0， 我 们 能 得 到 关于 全 的 表达 式 并 且 对 ww 求解 : 
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现在 定义 一 些 新 的 平均 量 是 非常 有 用 的 。 第 一 个 , (1/N) > ) x 是 数据 的 平均 平方 值 并 且 我 
们 把 它 记 为 于 。 注 意 ， 这 个 量 与 (z)* 不 同 。 第 二 个 是 (1/N) 》) zt, (同样 ， 它 与 5 不 
同 ) 。 我 们 将 它 记 为 元 。 将 这 些 在 关于 wi 的 表达 式 中 替换 ， 得 到 ; 

六 二 (1-10) 


式 (1-10) 和 式 (1-8) 为 计算 最 好 的 参数 值 提供 了 全 部 所 需 的 一 切 。 首 先 用 式 (1-10) 的 
Wl 替换 式 (1-8) 来 计算 大 (MATLAB 脚本 : fitlinear. m)。 


1.1.5 有 效 的 例子 


在 用 线性 模型 拟 合 奥运 会 数据 之 前 ， 在 一 个 更 小 数据 集 上 提供 一 个 有 效 的 例子 是 非常 有 
用 的 。 假 设 我 们 观察 到 N=3 个 数据 点 ， 如 表 1-1 所 示 。 最 后 一 行 给 出 了 计算 克 和 区 所 需 
的 各 种 平均 值 :去 .二 元 和 zz 。 图 1-4 画 出 了 这 3 个 数据 点 。 


表 1-1 线性 回归 例子 的 合成 数据 集 









































a) 在 表 1-1 中 描述 的 3 个 合成 数据 点 b) 由 hx:zozo)=1.8+3.1x 定 义 的 最 小 二 乘 拟 合 
图 1-4 1.1.5 节 中 有 效 的 例子 中 的 数据 和 函数 
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将 这 些 值 代入 式 (1-10)， 得 到 : 


和 


因此 最 好 的 线性 函数 是 : 


并 且 如 图 1-4b 所 示 。 


le57— HK Ll 1 





2 11.67 一 3 又 3 
8. 27 


2.67 
3 


上 


wo 一 11.1 一 3.1X3 王 1.8 


CCzyrooyl) 一 1.8 十 3.1z 


1.1.6 奥运 会 数据 的 最 小 二 乘 拟 合 
表 1-2 总 结 了 奥运 会 100 米 数据 集 的 数据 ( 见 图 1-1) 。 
表 1-2 奥运 会 男子 100 米 数 据 














n Xn tn Xtn 8 
了 1896 12. 00 22 752.0 3. 5948X 105 
区 1900 11. 00 20 900. 0 3. 6100X 105 
3 1904 11.060 20 944. 0 3. 6252X 105 
4 1906 11. 20 21 347. 2 3. 6328 X105 
5 1908 10. 80 20 606. 4 3. 6405 X 105 
6 1912 10. 80 20 649.6 3.6557X105 
7 1920 10. 80 20 736.0 3. 6864X 105 
8 1924 10. 60 20 394. 4 3.7018X 10° 
9 1928 10. 80 20 822. 4 3.7172X105 
10 1932 10. 30 19 899.6 3.7326X105 
了 1936 10. 30 19 940. 8 3.7481X106 
12 1948 10. 30 20 064. 4 3.7947X 105 
13 1952 10. 40 20 300. 8 3. 8103X 10° 
14 1956 10. 50 20 538.0 3. 8259 X 105 
15 1960 10. 20 19 992.0 3. 8416 X 105 
16 1964 10. 00 19 640. 0 3.8573X 10° 
到 1968 9. 95 19 581.6 3. 8730X 105 
18 1972 10. 14 19 996. 1 3. 8888X 105 
19 1976 10. 06 19 878. 6 3. 9046 X 105 
20 1980 10. 25 20 295. 0 3. 9204X105 
21 1984 9. 99 19 820. 2 3.9363X105 
22 1988 9. 92 19 721.0 3. 9521 X 105 
23 1992 9. 96 19 840. 3 3. 9681 X105 
24 1996 9. 84 19 640.6 3. 9840 X 105 
25 2000 9. 87 19 740.0 4. 0000 X 105 
26 2004 9. 85 19 739. 4 4.0160X105 
27 2008 9. 69 19 457. 5 4. 0321 X 106 
| 
(1/N) >， 1952. 37 10. 39 20 268. 1 3. 8130X105 
n=1 
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将 相同 的 方法 精确 地 应 用 到 这 个 数据 ， 对 w。 和 wi 得 到 如 下 值 (注意 ， 最 后 值 用 
MATLAB 计算 一 一 如 果 你 计算 完成 ， 由 于 舍 人 误差 ， 可 能 得 到 的 值 略 有 些 不 同 ) , 
20 268.1 一 1952. 37 X 10. 39 
3. 8130 X 105 一 1952. 37 X 1952. 37 


_ 一 16.3 
1225.5 


= 一 0.0133 
wo = 10. 39 一 (一 0.0133) X 1952. 37 
一 36. 416 
因此 ， 最 好 的 线性 函数 是 : 





共 





JCzirooyzl) = 36.416 一 0.0137Z CHI-11) 


图 1-5 画 出 了 此 函数 (参见 练习 EX 1.2)。 这 些 值 和 练习 EX 1. 1 得 到 的 估计 值 一 致 吗 ? 
(MATLAB 脚本 : fitolympic.m。) 





12 OT T T T T La 


11.5 上 


10 上 
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图 1-5 ”对 奥运 会 男子 100 米 数 据 集 的 最 小 二 乘 拟 合 (f(x;wo ,wi) 二 36.416 一 0.013x) 


1 1 1 





1.1.7 小 结 


到 目前 为 止 ， 我 们 介绍 了 创建 一 个 总 结 属性 集合 和 响应 集合 之 间 关 系 模型 (尤其 是 线性 
模型 ) 的 思想 。 为 了 从 数据 中 拟 合 (或 者 学 习 ) 这 个 模型 ， 我 们 定义 了 一 个 损失 函数 来 客观 
地 评价 一 个 特定 模型 的 好 坏 程 度 。 用 平方 损失 ， 我 们 得 到 了 最 小 化 损失 模型 参数 值 的 精确 表 
达 式 ， 并 且 因 此 得 到 了 最 好 的 函数 。 最 后 ， 我 们 把 这 个 技术 应 用 到 两 个 不 同 的 数据 集 。 现 在 
我 们 将 看 到 怎样 用 模型 做 出 预测 。 


1.2 预测 


现在 我 们 有 了 一 个 将 奥运 会 年 份 和 100 米 短跑 比赛 的 获胜 时 间 联 系 起 来 的 模型 ， 我 们 能 
用 它 对 某 年 还 没 观 察 到 的 获胜 时 间 做 出 预测 。 例 如 ， 预 测 2012 年 和 2016 年 奥运 会 的 获胜 时 
间 “和 zt" ， 我 们 将 x 二 2012 和 z 一 2016 代入 公式 : 
fx;wo 一 36.416,rz 一 一 0.0133) = 36. 416 — 0. 0133x 
t2012 一 f(2012;wo ,wi) 一 36.416 一 0.0133 X 2012 = 9. 595 





10 


第 1 章 线性 建 模 : 最 小 二 乘法 


P= f(201637w0 s 0) = 36. 416 一 0.0133X2016 = 9.541 
这 些 预测 在 图 1-6 中 给 出 “(MATLAB 脚本 : olymppred.m)。 从 图 1-6 中 可 以 看 出 ， 
基于 线性 回归 模型 ， 我 们 预期 2012 年 伦敦 奥运 会 的 获胜 时 间 是 9. 595s。 这 个 值 是 非常 精确 
的 。 任 何 模型 对 如 此 复杂 的 事件 预测 出 如 此 高 精度 的 结果 似乎 是 不 可 能 的 ， 仅 仅 是 基于 直 
线 。 我 们 的 模型 看 起 来 是 非常 精确 的 ， 但 是 对 于 某 些 数据 还 是 不 能 做 出 预测 ， 从 图 1-5 中 的 
直线 到 某 些 点 的 距离 也 可 以 看 出 这 点 。 对 将 来 的 预测 是 更 准确 的 这 一 假设 似乎 是 特别 昌 
蠢 的。 
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图 1-6 从 1980 年 开始 奥运 会 男子 100 米 短跑 的 获胜 时 间 放 大 图 ， 显 示 了 对 2012 年 和 
2016 年 奥运 会 的 预测 
准确 的 预测 在 模型 不 完美 的 情况 下 (几乎 所 有 情况 ) 是 有 限 的 。 一 般 地 ， 在 一 个 范围 内 
的 值 它 是 有 用 的 ， 而 不 是 任何 一 个 特定 值 。 在 第 2 章 及 之 后 章节 ， 我 们 将 看 到 如 何 完 成 这 些 
预测 。 


1.2.1 第 二 个 奥运 会 数据 集 


表 1-3 显示 了 第 二 个 数据 集 ， 它 和 第 一 个 数据 集 是 相关 的 。 图 1-7 显示 了 此 数据 集 及 其 
最 小 化 平方 损失 函数 的 线性 模型 (参见 练习 EX 1.6 和 练习 EX 1.7)。 女 子 数据 的 模型 是 
(注意 ， 由 于 舍 入 误差 ， 与 这 些 数据 相 比 ， 可 能 产生 一 些 差异 ): 


表 1-3 奥运 会 女子 100 米 数据 

















n Xn tn ts 2 

1 1928 12. 20 23521. 6 3.7172X 105 
2 1932 11.90 22 990.8 3.7326X 105 
3 1936 11. 50 22 264. 0 3. 7481IX108 
4 1948 11.90 SS. 多 3.7947X 105 
5 1952 11. 50 22 448. 0 3.8103X 105 
6 1956 11.50 22 494.0 3. 8259X 106 
a 1960 11.00 21 560.0 3.8416X 105 
8 1964 11. 40 22 389.6 3. 8573X 105 
9 1968 11.00 21 648. 0 3.8730X 105 
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( 续 ) 

n Ys 矶 Nut X23 
10 1972 11. 07 21 830.0 3. 8888X 105 
11 1976 11.08 21 894.1 3. 9046X 10° 
1 1980 11.06 21 898. 8 3. 9204X 105 
13 1984 10. 97 21 764.5 3.9363 X10 
14 1988 10. 54 20 953.5 3. 9521 X10 
15 1992 10. 82 21 553.4 3. 9681X 105 
16 1996 10. 94 21 836. 2 3. 9840X 10° 
17 2000 11. 12 22 240. 0 4. 0000X 105 
18 2004 10. 93 21 903.7 4. 0160 X 105 
19 2008 | 10. 78 21 646. 2 4.0321X 105 

N 
CN 21 1970. 74 11. 22 22 106. 2 3. 8844X 105 
12.5 T T 
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图 1-7 奥运 会 女子 100 米 数据 及 其 最 小 化 平方 损失 的 线性 模型 


fz;wo stw) = 40.92—0.015x 

这 个 模型 与 从 男子 数据 得 到 的 模型 相 比 是 非常 有 趣 的 : 
fx;wo ,wi) 一 36.416 一 0.013z 

女子 模型 有 一 个 更 高 的 截 距 〈r) 以 及 一 个 更 陡峭 的 负 梯 度 (wi)。 如 果 将 这 两 个 模型 放 
到 一 起 ,参见 图 1-8， 从 中 可 以 看 到 更 高 的 截 距 以 及 更 大 的 负 梯 度 ， 这 意味 着 在 某 点 这 两 
条 直线 将 相交 。 用 这 个 模型 我 们 可 以 预测 女子 获胜 时 间 比 男子 获胜 时 间 快 的 第 一 届 奥 运 
会 年 份 。 根 据 得 到 的 模型 这 将 是 在 2592 年 奥运 会 (实际 答案 被 舍 和 到 最 近 的 奥运 会 年 
份 ， 并 且 已 经 通过 MATLAB 用 精确 数据 计算 得 出 ， 因 此 你 可 能 发 现 一 些微 小 的 伟人 误差 
(参见 练习 EX 1. 8))。 

由 于 采用 单个 模型 的 点 预测 ， 所 以 从 这 个 预测 产生 的 置信 区 间 不 应 该 太 大 。 不 仅 预测 精 
度 是 可 疑 的 ， 而 且 到 最 后 的 观测 数据 点 将 是 很 长 的 时 间 。 我 们 能 否 假 设 获胜 时 间 与 奥运 会 年 
份 的 关系 在 将 来 一 直 按 这 个 继续 下 去 ? 如 果 这 个 假设 成 立 ， 那 么 最 后 将 会 出 现 获胜 时 间 0 
秒 ， 这 显然 是 不 可 能 的 。 
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图 1-8 男子 和 女子 函数 对 将 来 的 预测 
1.2.2 小 结 
通过 前 面 介绍 的 内 容 ， 我 们 已 经 看 到 怎样 将 一 个 简单 的 线性 模型 拟 合 到 一 个 小 数据 集 ， 


并 用 结果 模型 做 出 预测 。 我 们 描述 了 这 种 预测 方式 的 一 些 局 限 性 ， 在 之 后 的 章节 中 ， 我 们 将 
介绍 另 一 种 技术 ， 它 可 以 克服 这 些 局 限 性 。 此 时 ， 特 征 〈z,) 一 直 是 单个 数字 。 下 面 将 看 到 
线性 模型 怎样 被 延伸 到 更 大 的 属性 集合 ， 这 也 促使 我 们 对 更 复杂 的 关系 建立 模型 。 


1.3 向量/ 矩阵 符 号 


在 许多 应 用 中 ， 我 们 感 兴趣 的 是 这 样 一 些 问题 : 其 中 每 一 个 数据 点 表示 为 一 些 属 性 的 集 
合 。 例 如 ， 我 们 可 以 确定 仅仅 用 奥运 会 年 份 不 适合 奥运 会 短跑 数据 模型 的 建立 。 用 奥运 会 年 
份 和 每 个 运动 员 个 人 最 好 成 绩 建 立 的 模型 可 能 更 准确 。 用 5s ，s;，…，ss 表示 在 跑道 1 一 8 
的 运动 员 的 最 好 成 绩 〈 获 胜 时 间 )， 合 适 的 线性 模型 可 能 包括 : 


| | 





二 fx,si 9"""955$To 9 "5 3 Ce) 





= Ww Wi ss + sss + Vo ss 
十 ws ss 十 voe ss 十 vor se 十 gsy 十 Voy Sg 
我 们 可 以 执行 一 饥 以 前 的 分 析 来 找到 你 ，…, 可 。 求 得 损失 函数 的 偏 导数 之 后 ， 得 到 10 


个 等 式 ， 它 们 再 经 过 重新 排序 和 相互 替换 。 这 是 费时 的 练习 ， 并 且 随 着 包含 变量 的 进一步 增 
加 ， 它 们 很 快 变 得 不 可 行 一 一 具有 数 千 个 变量 的 机 器 学 习 是 常见 的 。 幸 运 的 是 ， 这 里 有 男 一 
种 方法 一 一 用 向 量 和 和 矩阵 。 

由 于 有 些 读 者 可 能 不 熟悉 这 个 领域 ， 所 以 我 们 将 花 一 些 时 间 来 描述 向 量 和 和 气 阵 的 概念 ， 以 及 
数学 上 怎样 将 一 些 量 处 理 成 向 量 和 和 矩阵 的 形式 。 对 这 些 概 念 熟悉 的 读者 可 以 直接 学 习 1.4 节 。 

通过 将 多 个 属性 堆放 在 一 起 形成 一 个 向 量 ， 可 以 将 每 个 数据 点 的 9 个 属性 〈8 个 个 人 最 
好 成 绩 和 一 个 奥运 会 年 份 ) 结合 成 一 个 单独 的 变量 。 我 们 将 用 黑体 小 写字 母 标 记 这 些 向 量 ， 
例如 x，( 参 见 注 解 1. 3) 。 我 们 常常 需要 提 到 一 个 特定 向 量 或 者 矩阵 的 单个 元 素 ， 这 里 用 下 
标清 晰 地 表示 所 提 到 的 元 素 。 例 如 ， 向 量 x, 的 第 一 个 元 素 记 为 x,, ， 第 i 个 元 素 为 x;。 


注解 1.3 (标量 、 向 量 和 矩阵) : 我 们 将 遵循 表示 的 标准 习惯 ,用 字母 (例如 x) 来 表示 
标量 ， 用 黑体 小 写字 母 ( 例 如 x) 表示 向 量 ， 用 黑体 大 写字 母 〈 例 如 X) 表示 矩阵。 同 
时 我 们 将 始终 坚持 这 一 表示 法 ， 不 同 地 方 对 向 量 的 定义 有 不 同 的 方式 。 例 如 , 芯 是 向 量 x 
的 普遍 写法 。 
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如 果 想 在 一 个 向 量 中 表示 所 有 的 元 素 ， 我 们 将 它 以 列 的 形式 写 出 来 ， 并 用 中 括号 括 起 
来 。 这 里 是 长 度 为 2 和 4 的 两 个 向 量 的 例子 : 


由 于 将 向 量 记 为 列 有 点 笨拙 ， 所 以 我 们 常常 将 它们 记 为 行 ， 并且 用 转 置 符 (参见 注解 1. 4) 
来 表示 它们 应 该 被 旋转 过 来 。 如 果 我 们 假设 有 DD 个 属性 ， 那 么 将 x 定义 为 吉 二 [xn，…,zxwj]。 
在 我 们 的 奥运 会 数据 中 ，x 一 LYear's ,5 ，… ,ss ] 。 


注解 1. 4 (向 量 转 置 ) : 向 量 x 的 转 置 〈 记 为 过) 是 通过 旋转 此 向 量 得 到 的 ， 它 是 一 行 多 
列 而 不 是 一 列 多 行 。 例 如 : 





三 ,x = [4, 75 了 一 2 


3 泛 


一 











注解 1.5 (矩阵 /向 量 维 数 和 标 引 ) : 如 果 我 们 要 引用 一 个 矩阵 或 者 向 量 的 大 小 〈 或 者 维 
数 )， 我 们 就 给 出 两 个 数 ， 并 以 行 数 开始 。 例 如 ， 


A= las az 








U31 432 
维 数 是 3X2。 向 量 是 第 二 维 为 1 的 矩阵 的 一 种 特殊 情况 。 例 如 ， 
yi 


可 以 被 想象 成 维 数 为 4X1 的 矩阵 。 

当 在 一 个 向 量 中 标 引 其 元 素 时 ， 单 个 数 就 足够 了 例如 ，ys 记 为 上 面 y 向 量 的 第 三 
个 元 素 )。 当 标 引 一 个 矩阵 时 ,我们 将 用 从 行 开始 的 两 个 下 标 。 例 如 ，azi 表 示 A (上 面 ) 
在 第 二 行 第 一 列 的 元 素 。 注 意 ， 有 时 也 用 一 个 下 标 标 记 某 个 对 象 索 引 。 例 如 ，x, 是 第 
个 属性 集 的 向 量 。 如 果 存 在 ， 这 个 索引 总 是 首先 呈现 出 来 的 。 从 上 下 文中 显然 可 以 看 出 
这 个 索引 是 否 存在 。 


在 我 们 着 手 添加 额外 的 变量 时 ， 有 必要 以 向 量 形式 重复 对 初始 模型 (1 二 wo 十 wx) 的 


分 析 。 这 需要 我 们 对 在 两 种 情况 下 得 到 的 侈 和 了 例 的 表达 式 进行 比较 。 第 一 步 ， 将 zw 和 
wi 合并 为 单个 参数 向 量 w ， 并 将 每 个 x, 扩大 为 1， 从 而 产生 数据 向 量 x,， 即 


To , 
er [j= 四 
依据 x 和 w ， 此 模型 可 以 表示 为 (和 矩阵 /向 量 乘法 将 在 注解 1.7 中 定义 ) : 


f (xn ;Wo ,Wi) 一 TUTX， = wo 十 wi zn 


我 们 可 以 用 w'x 替换 wo 十 wiz 的 任何 一 个 实例 。 例 如 ， 平 方 损失 L 可 以 表示 为 
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C= 方 习作 一 ar (1-12) 
事实 上 ,很 容易 将 平均 损失 表达 为 如 下 的 函数 形式 ， 它 是 向 量 和 和 矩阵 的 函数 : 


c= Ne ) (一 各 


为 了 理解 它 是 怎么 等 于 式 (1-12) 的 ,我 们 首先 将 所 有 x 合并 为 一 个 矩阵 全 ， 并 且 将 
所 有 4 合并 为 一 个 向 量 上 : 


2 1 | ti 
人 
X2 1 TX? tz 
XxX 一 一 一 sk 一 
XN 1 tn 





注解 1.6 (矩阵 转 置 ) : 对 于 每 个 矩阵 六 ， 其 转 置 X' 是 通过 将 其 每 行 变 为 列 以 及 每 列 变 
为 行 而 形成 的 。 例 如 ， 如 果 Y 王 X ,那么 Y; 二 Xj; 。 


1 4 
+_ Fl 3 一 2 
尖 = | 区 6 
二 并 
一 2 11 














注解 1.7 (和 矩阵 乘法 ): 为 了 继续 进行 ， 我 们 必须 引入 矩阵 乘法 的 概念 。NXM 和 矩阵 A 和 
PXQ 和 矩阵 B 进行 乘法 AB， 只 有 在 M 二 P 时 才 有 意义 ， 即 A 的 列 数 和 B 的 行 数 相 等 。 假 
设 此 条 件 成 立 ， 那 么 乘积 C 一 4B 是 一 个 NXQ 和 矩阵 ， 满 足 

Gs = D AnBs 


写 出 此 和 矩阵 常常 是 有 用 的 ， 例 如 ， 
bi Di bis 
| bz D22 bz3 | 
all Qaiz aunbu 十 ap anbw 十 ap Qilpis 十 Qizpbos 
人 se Cilpiz 十 Qizpzz Qilp13 | 
这 里 我 们 可 以 想象 ， 通 过 同时 遍历 4 的 相关 行 和 B 的 相关 列 来 计算 C 的 每 个 元 素 。 
我 们 经 常 遇 到 的 特殊 情况 是 两 个 列 向 量 之 间 的 内 积 ， 定 义 为 二 x 7， 结果 是 一 个 标 
量 。 这 两 个 向 量 必须 是 相同 的 长 度 ， 并 且 转 置 确保 x 的 列 数 和 y 的 行 数 相同 。 应 用 与 矩 
阵 一 样 的 技术 ， 我 们 看 到 











多 一 D zy 
因此 ， 如 果 执 行 矩 阵 乘法 Xw ， 那 么 结果 是 一 个 向 量 ， 此 向 量 的 形式 如 下 : 

1 Xi | two 十 wi Xl 

i . i 区 [|= two Ti 
: : 3 
1 ZN Wwo 十 ZiZN 

上 减 去 它 得 到 : 
ti — wo — TERI 


Vo — WIN 
t— Xw = 


IN 一 To 一 ZIZN 
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与 其 转 置 相 乘 ， 然 后 变换 为 平方 科 ， 从 而 得 到 我 们 原来 的 损失 函数 : 
(Xw oO—t) (Xw—t) 一 (ro wx Om 二 (wd wr CO— to) + 
十 (wo 十 wxn CO— tN) 


人 5 (vwo 十 wo pe Ed 
一 》\(， 一 Ca 
因此 ， 损 失 可 以 简洁 地 表示 为 : 
了 一方 CC 一 Xuw)7Gt 一 Xu ) (1-13) 


下 面 的 损失 表达 式 都 是 相同 的 : 
1 1 立 1 < 
六 一 站 全 GE 一 Roy 一 New) = N22 (wo + wi xz, )) 








注解 1. 8 (乘积 的 转 置 ): 矩阵 乘积 的 转 置 (Xe ) ”可 以 将 两 项 交换 相 乘 并 对 两 个 单独 的 
和 矩阵 分 别 转 置 
(Xw)' = wxX 
为 了 处 理 更 复杂 的 形式 ， 可 以 多 次 应 用 上 面 的 结果 ， 例 如 ， 
(ABCD)™ = ((AB)(CD))” 
= (CD)'(AB)' 
= D'C'B'A” 











一 且 添 加 了 括号 ， 就 很 容易 产生 矩阵 损失 。 注 意 ， 和 矩阵 相 乘 的 顺序 〈 注 解 1.7 中 给 出 了 不 同 
大 小 约束 下 的 讨论 ) 以 及 注解 1.8 中 给 出 的 乘积 转 置 的 定义 都 很 重要 : 


[= 方 CXmw 一 疗 汽 汪 太 一 克 


= ((Xw )'—1')(Xw—t) 
EE NCXw 于 总 0 二 ACT 志 NXw ) 十 NE 
Nw XXw Nw Xt (1-14) 
t'Xw 和 ww 'X't 互 为 转 置 (根据 乘积 转 置 的 一 致 性 ) 并 且 都 是 标量 (各自 满足 其 结果 是 1X1 
和 矩阵， 因此 是 一 个 标量 ) 。 这 意味 着 它们 一 定 是 相同 的 并 且 可 以 合并 。 
向 量 / 和 矩阵 的 微分 损失 : 我 们 想 要 和 CC 的 一 个 拐点 〈 极 小 值 ) 一 致 的 向 量 w 的 值 。 为 了 


实现 它 ， 必 须 求 得 LC 关于 w 的 偏 导 数 。 依 次 获得 L 关 于 w 每 个 元 素 的 偏 导数 ， 将 结果 组 成 一 
个 向 量 。 尽 管 在 后 面 可 以 看 到 ， 实际 上 能 够 直接 获得 孔 的 向 量 形式 ， 但 在 这 个 例子 中 还 是 
值得 这 样 做 的 。 以 两 个 变量 为 例 ， 向 量 表示 为 


| 





ey 
DC _ |9wo 
am |aL 
ar 


该 向 量 包含 C 关 于 rw 和 zw 的 偏 导数 。 向 量 的 这 两 个 元 素 依 次 与 式 (1-7) 和 式 (1-6) 中 的 
元 素 是 一 样 的 。 通 过 运算 这 两 个 参数 的 微分 方程 式 (1-13)， 能够 检验 我 们 的 损失 的 确 是 正 
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确 的 。 首 先 ， 展 开 表 达 式 
人 C 一 Nw XT Xew —2w'X't+t'1) 
最 后 一 项 不 包含 wo 或 wi， 因此 可 以 忽略 。 展 开 后 ， 第 一 项 是 ( 见 练习 EX 1. 3) 
1 N | 便 N . Ey N , 
wi Nn( 2 X%) 十 2wo wi N( 2 XnXn) 十 wi N( 2 X%) 


其 中 Xw 是 X 第 n 行 的 第 一 个 元 素 ， 即 第 n 个 数据 对 象 的 第 一 个 元 素 ，X 是 第 二 个 〈( 角 标 
从 0 开始 是 为 了 与 wo 一 致 ) 。 类 似 地 ， 第 二 项 为 


] N 1 N 
2rwo N( 2 rt) 十 2wil N( 2 nt) 
结合 这 些 以 及 在 之 前 的 表示 法 中 ， Xn= ly i 其 结果 为 
Tw 十 2zoo ro 志 ( um) 十 ws 六 7) — 2rwo N( >») 一 2zwi 志 ( De) 
关于 zw 和 z 均值 和 微分 的 简洁 表示 ， 可 以 表示 为 


i 十 玛 到 一 

Ovwo 

DL 庆 丰 区 二 区 站 划一 奖 二 
Orzen 


作为 非 正 式 的 练习 ， 请 证 明 这 些 等 价 于 从 非 撩 量化 损失 函数 ( 式 (1-7) 和 式 (1-6)) 
获得 的 导数 。 

幸运 的 是 ， 有 很 多 标准 的 恒等式 可 以 直接 微分 矢量 化 表达 式 。 表 1-4 给 出 了 需要 的 等 式 。 

这 些 恒等式 让 其 导数 等 于 0， 可 以 直接 得 到 下 面 的 表 表 1-4 关于 向 量 微分 的 一 些 有 用 等 式 








达 式 : flw) 2 
dow 
dL 2 gt 2 wt wiIx x 
一 NX Xi Xt=0 
Ow 人 N XIT 也 沪 
X'Xw = Xt (1-15) 三 砚 
wICw 2Cw 





推导 表达 式 友 的 最 后 一 步 (w 的 最 优 值 ) 在 式 (1-15) 中 给 出 。 我 们 不 能 两 边 都 除 以 
XIX (除法 在 矩阵 中 没有 定义 ) ， 但 是 可 以 乘 以 一 个 矩阵 以 消除 左边 的 XXX (只 留 下 一 个 单 
位 矩阵， 见 注 解 1.9) 。 要 乘 的 矩阵 是 XX'X 的 闭 和 矩阵 〈 见 注解 1. 10)， 表 示 为 (X'X)  。 给 
式 (1-15) 前 面 乘 (X7X)  ， 得 到 : 

Iw 一 (XITX)-XTE 

因为 lw 二 w (从 单位 矩阵 的 定义 可 知 )， 所 以 我 们 得 到 使 损失 最 小 的 让 值 ， 码 的 矩阵 

公式 : 


WwW 二 (XXX , 0 | (C1716) 





注解 1.9 (单位 矩阵 1: 我 们 经 常 遇 到 单位 矩阵 Iv。 它 是 一 个 N XN 矩阵， 对 角 线 全 为 


1， 其 他 都 为 0。 
1 0 
| 
los | 1 0 0 
0 1 


0 
1 
0 
通常 ， 单 位 矩阵 的 大 小 可 以 很 明显 地 从 其 表达 式 中 看 出 。 在 这 些 例子 中 ， 我 们 忽略 
其 下 标 。 
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单位 矩阵 的 一 个 重要 性 质 是 任何 一 个 向 量 或 者 矩阵 与 一 个 合适 大 小 的 单位 矩阵 相 乘 
都 等 于 该 矩阵 或 者 向 量 本 身 。 例 如 ， 给 定 ?= [yw ，…，yp]】 以 及 一 个 DXD 单位 矩阵 
TIp， 则 有 

y 1 一 yp 一 》 
类 似 地 ， 对 于 NXM 矩阵， 有 


all Q12 QIM 

U21 CQ22 Q2M 
A 王 

CNI CN2 CQ NM 


AIv =A,I\NA =A 
一 个 单位 矩阵 乘 以 一 个 标量 ， 其 结果 是 矩阵 的 每 个 对 角 线 元 素 乘 以 该 标量 。 从 下 面 
这 个 例子 可 以 看 出 : 





oo 0 0 

0 0 
2 Tm == 由 

0 0 2 











1.3.1 例子 
通过 公式 展开 检查 得 出 ， 和 抢 阵 公式 确实 与 之 前 得 到 的 标量 公式 一 致 。 在 二 维 空间 中 ， 


N N 
2 
Tno Tno Tnl 
n=1 





天 环 一 yg 网 
Sway 
-1 
元 表示 均值 ， 上 式 重 写 为 
MIX 一 N| 
10 Zt 


2X2 矩阵 的 逆 〈 见 注解 1. 10) 可 以 表示 为 








注解 1. 10 (矩阵 的 逆 ): 矩阵 4 的 逆 定 义 为 矩阵 4 ， 满 足 4 4=T。 在 此 没有 给 出 矩阵 
求 逆 的 一 般 形式 , 但 是 从 数学 角度 看 ,一 个 2X2 矩阵 可 以 用 以 下 公式 求 逆 : 
_rapb es 1 a 一 必 
“|。 oj 人 一 二 
我 们 经 常会 遇 到 对 角 和 抢 阵 求 道 的 特殊 情况 〈 即 对 角 线 以 外 的 元 素 都 是 0) 。 这 样 矩 阵 的 逆 
是 另 一 个 对 角 和 矩阵 ， 它 的 每 个 对 角 线 元 素 仅仅 是 原 矩 阵 相 应 位 置 元 素 的 逆 。 例 如 ， 








all 0 。。 0 于 0 0 0 
省 守 0 U22 0 A C@22 0 
0 0 ei CQDD 0 0 Pe. apyb 


值得 注意 的 是 ， 这 个 定义 表明 一 个 单位 矩阵 〈 见 注解 1.9) 的 逆 仍 然 是 一 个 单位 矩阵 : 
太一 了 
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2 
六 1 1 Tl ol 
(R'E) 二 
N 72 x7? ee Z 
To IIZo ozZl | 一 ITZ0 Xo 


我 们 需要 给 该 式 乘 以 Xr't， 即 (直接 用 平均 值 标记 ) 


Zoli 


Na 


现在 ， 知 道 zx 一直 为 1，zw 重 新 定义 为 x，( 和 标量 标记 一 致 )， 我 们 需要 计算 : 


训 1 Xx 一 艾 小 
孔 二 二 一 XNI_ 
N zr:—Zzzt Jue 1 | [去 | 














即 
人 
翁 = 二 | | (1-17) 
wi TTXX 2 
以 六 开始 (第 二 行 ) 
二 
大 三 污 一 一 一 
i 


和 前 面 完 全 一 样 ， 避 需要 简单 重 排 ， 从 而 使 后 向 计算 更 容易 。 从 原 表 达 式 开始 ， 将 如 的 新 
表达 式 代 入 











Wh= fi— 人 Dz 
. _ZX—xt 
二 7 一 工 污 一 一 一 
这 一 
j= 环节 
= 去 去 ) x =2 see 
关 交代 区 一 玄 才 
Fx TZT 一 KFTE 
XC 一 TT 
_zzx:—zA7 
ye 


它 即 为 式 (1-17) 中 需要 的 第 一 行 。 


1.3.2 数值 的 例子 


为 了 有 助 于 不 熟悉 向 量 和 和 抢 阵 的 读者 理解 ， 我 们 在 此 重复 前 面 章节 中 给 出 的 线性 回归 的 
例子 。 和 矩阵 中 的 数据 为 : 


1 5 
检查 式 (1-16)， 我 们 看 到 需要 计算 的 第 一 个 量 是 X'X: 


， J 
XTX 一 x 
和 | 


用 上 面 的 公式 计算 其 逆 和 矩阵 为 














35 一 9 
(CXTXD)-: = 旨 | 


乘 以 XX"， 
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i 0 
= 到, 本 hh 3 7 0 加 
最 后 ， 此 矩阵 乘 以 放 : 


站 8 一 10 
COC2O DO 一 站 | | 


6 0 6 





因此 ， 其 结果 为 f(x;wo ,wi) 二 1.8 十 3.1x， 与 前 面 一 样 正确 。 


1.3.3 预测 
给 定 属性 zeew 的 一 个 新 向 量 ， 对 于 模型 i 的 预测 可 以 计算 为 : 


ok 
tnew WwW Xnew 





1.3.4 小 结 
在 前 面 的 各 节 中 ， 我 们 介绍 了 用 向 量 和 和 矩阵 描述 的 线性 模型 。 结 果 得 到 一 个 非常 有 用 的 
并 对 
其 任意 形式 的 线性 模型 做 预测 : 


t» = Zi TT ws zw War + 
这 是 一 个 很 有 效 的 工具 一 一 许多 真实 的 数据 集 往往 不 止 一 个 属性 ， 对 其 中 大 多 数 属性 来 说 ， 
该 线性 模型 是 适用 的 。 我 们 也 了 解 到 该 模型 的 预测 是 非常 精确 的 ,但 不 总 是 合理 的 。 在 后 续 
的 章节 中 将 考虑 如 何 克 服 这 个 缺点 。 
组 成 x, 的 属性 衡量 不 同 的 特性 〈 例 如 ， 获 胜 的 次 数 和 个 人 的 最 好 成 绩 ) 。 或 者 说 ， 可 能 
是 把 一 个 函数 集 应 用 到 奥运 会 年 份 这 个 单独 属性 的 结果 : z,。 它 允许 扩展 线性 模型 ， 这 是 下 
一 节 将 要 讨论 的 主题 。 


1.4 线性 模型 的 非 线 性 响应 


从 这 章 开 始 ， 假 设 应 用 线性 函数 对 时 间 和 奥运 会 100 米 短跑 时 间 之 间 的 关系 建立 模型 。 
在 很 多 实际 应 用 中 ， 这 个 太 受 约束 。 即 使 对 于 100 米 数据 ， 它 也 表明 它 过 于 简单 化 一 一 线性 
模型 预测 3000 年 ， 时 间 将 会 是 一 3. 5 秒 ! 幸运 的 是 ， 对 于 更 多 复杂 的 模型 ， 可 以 通过 属性 
转换 正确 地 使 用 我 们 之 前 描述 的 相同 的 框架 。 

到 目前 为 止 ， 可 以 看 到 的 线性 模型 

fr;w) = oo wix 
是 一 个 关于 参数 (w) 和 数据 (zx) 的 线性 关系 式 〈 见 注解 1. 1) 。 从 计算 的 角度 看 ， 参 数 的 
线性 性 可 以 描述 为 最 小 化 平方 损失 函数 的 解 ， 如 式 (1-8) 和 式 (1-10) 中 。 增 加 列 zx?， 扩 
展 数据 和 矩阵 XX: 


并 且 增 加 一 个 额外 参数 w : 
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结果 为 : 
fx;yw) = wx = wt wr wr 
由 于 参数 中 的 模型 仍 是 线性 的 ， 所 以 可 以 用 式 (1-16) 来 求 取 w ， 但 是 要 拟 合 的 函数 在 
数据 中 是 二 次 的 。 图 1-9 给 出 了 使 用 该 方法 的 例子 ， 它 用 数据 的 二 次 函数 来 拟 合 适当 的 数据 
集 ( 实 线 ) (MATLAB 脚本 : synthquad.m)。 它 还 说 明 通 过 尝试 获得 的 函数 能 够 拟 合 原 
始 线性 〈 在 数据 中 ) 模型 (虚线 ,1 二 wo 十 wizx)。 很 明显 ， 从 拟 合 的 结果 看 ， 二 次 模型 更 
适合 。 

















图 1-9 线性 和 二 次 模型 拟 合 二 次 函数 生成 的 数据 集 


更 一 般 地 ， 可 以 增加 z 的 过 得 到 任意 阶 的 多 项 式 函 数 。 对 于 一 个 K 阶 多 项 式 ， 可 以 扩 
展 数据 矩阵 为 : 


pe pe by a py er 
a A A vw tr 

3 。 (1-18) 
XN ZN ZN … zh 


(其 中 zz 二 1)， 函 数 可 以 表达 为 更 一 般 的 形式 : 


f(z;yw) = Dy wx’ 


图 1-10 给 出 了 前 面 提 到 的 100 米 短跑 数据 拟 合 8 阶 多 项 式 函 数 的 效果 (MATLAB 脚 
本 : olymppoly. m)。 与 图 1-5 和 图 1-6 相 比 ，8 阶 模型 的 效果 是 否 比 1 阶 的 效果 更 好 ? 为 
了 回答 这 个 问题 ， 需 要 更 精确 地 了 解 所 谓 更 好 的 含义 。 对 模型 做 预测 问题 ， 论 证 认为 产生 最 
好 的 预测 的 模型 是 最 好 的 。 关 于 模型 选择 的 细节 问题 ， 可 以 参见 1. 5 节 。 然 而 ， 有 两 个 问题 
显而易见 ， 值 得 说 明 。 第 一 ，8 阶 多 项 式 比 1 阶 多 项 式 〈 原 始 模型 ) 更 接近 观测 数据 。 这 反 
映 了 有 更 低 的 损失 函数 值 ， LC = 二 0.459，L1= 二 1.358 (其 中 心 是 & 阶 多 项 式 的 损失 )。 事 实 
上 ， 增 加 多 项 式 的 阶 会 导致 模型 更 加 接近 训练 数据 。 第 二 ， 预 测 〈 实 线 所 显示 的 ) 不 够 合 
理 ， 尤 其 在 观测 数据 范围 之 外 。 
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11.5 上 


时 间 (5) 











95 1 1 1 上 1 1 
1880 1900 1920 1940 1960 1980 2000 2020 


年 
图 1-10 8 阶 多 项 式 拟 合 奥运 会 100 米 男 子 短跑 数据 
不 限于 多 项 式 函数 ， 我 们 可 以 随意 定义 xz 的 任何 K 项 函数 集 h (x): 





hi wi) h, (x1) 人 hx (zi1) 
下 二 ei a Sy ne 
hi (zn) h;» (ZN) 人 hx (zn) 


它 适用 于 任何 可 用 的 数据 。 例 如 ， 在 100 米 比 赛 数 据 中 出 现 周期 趋势 ， 合 适 的 函数 集 可 表 
示 为 : 

h(x)= 1 

h; (x£)= £ 





六 GE sin( 





fr;w )= wo twuzrtwsin(Ts ) 


这 个 模型 有 5 个 参数 : rw 、z 、w 、&、20。 不 幸 的 是 ， 只 有 前 3 个 参数 可 以 推导 出 来 。 后 
两 个 参数 c、2 出 现在 非 线 性 〈 正 弦 ) 函数 内 。 因 此 ， 对 这 些 参数 求 偏 导数 让 其 结果 等 于 0 
将 得 不 到 由 解析 法 求解 的 方程 组 。 有 很 多 克服 该 问题 的 方法 ， 最 简单 的 就 是 在 合理 范围 内 搜 
索 & 和 2 的 所 有 值 。 然 而 ， 目 前 将 忽略 这 个 问题 ， 假 定 已 知 其 值 。 如 果 固 定 a 和 2 的 值 ， 那 
么 可 以 用 前 面 推导 的 表达 式 设 置 其 他 的 参数 (w,。、wi、ws)。 假 设 a 和 2 是 固定 的 (a 二 
2660， 6b 二 4.3)， 图 1-11 给 出 了 使 用 此 模型 的 最 小 二 乘法 拟 合 。 在 C=1. 1037 的 情况 下 ， 拟 
合 观测 数据 比 1 阶 多 项 式 好 ， 但 不 如 8 阶 多 项 式 。 图 1-11 可 以 很 明显 地 看 出 模型 的 各 个 分 
量 : 常数 项 (wo 二 36. 610)、 向 下 的 线性 趋势 (wi 二 一 0.013) 和 导致 振荡 的 非 线性 正弦 曲 
线 项 (w; 二 一 0.133)。 注 意 ，w。 和 wi 的 值 与 1 阶 多 项 式 模型 的 那些 值 非常 相似 〈 见 
图 1-5) 可 以 对 原始 线性 模型 增加 一 个 振荡 分 量 。 
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11.5 上 + J 


时 间 (s) 
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4 


1 1 上 1 
1900 1920 1940 1960 1980 2000 2020 
年 








图 1-11 fr;w) 一 mm 十 rz- rsin( ) 的 最 小 二 乘法 拟 合 100 米 短跑 数据 (a 二 2600， b= 二 4. 3) 


1.5 泛 化 与 过 拟 合 

1.4 节 提 出 了 1 阶 与 8 阶 多 项 式 哪个 更 好 的 问题 。 假 定 原来 建立 这 些 模型 的 目的 是 做 预 
测 ， 那 么 不 难 理解 最 好 的 模型 就 是 可 以 使 预测 最 精确 的 那个 ， 即 可 以 泛 化 训练 样本 以 外 数据 
的 模型 (例如 , :到 2008 年 的 奥运 会 数据 )。 理 想 情况 下 ， 我 们 更 喜欢 选择 在 不 可 见 数据 上 性 
能 最 好 的 模型 〈 即 最 小 化 损失 )， 但 是 由 于 问题 本 身 的 原因 ， 数 据 无 法 得 到 。 

图 1-10 表明 ， 可 应 用 训练 数据 上 的 损失 选择 用 于 预测 的 模型 。 曲 线 显 示 训 练 数据 上 8 
阶 多 项 式 拟 合 男 子 100 米 数据 的 损失 比 1 阶 多 项 式 更 低 。 而 8 阶 多 项 式 对 于 未 来 奥运 会 的 预 
测 非常 糟糕 。 基 于 8 阶 多 项 式 的 模型 过 于 关注 训练 数据 (过 拟 合 )， 因 此 不 能 很 好 地 泛 化 新 
数据 。 由 于 模型 越 来 越 复杂 ， 所 以 也 越 来 越 允 近 可 观测 数据 。 不 幸 的 是 ， 当 超过 某 点 ， 预 测 
的 质量 就 会 迅速 退化 。 为 了 克服 过 拟 合 ， 能 够 很 好 地 泛 化 ， 确 定 最 优 模型 的 复杂 度 将 会 非常 
有 挑战 性 。 这 个 折 中 间 题 经 常 被 认为 是 偏 置 -方差 平衡 ， 将 在 2. 8 节 中 简单 地 介绍 。 


1.5.1 验证 数据 


克服 过 拟 合 问题 的 一 般 方法 是 使 用 第 二 个 数据 集 ， 即 验证 集 。 用 验证 集 来 验证 模型 的 预 
测 性 能 。 验 证 数据 可 以 单独 提供 或 者 从 原始 训练 集中 拿 出 一 部 分 。 例 如 ， 在 100 米 数据 中 ， 
可 以 从 训练 集中 拿 出 1980 年 以 后 的 所 有 奥运 会 数据 作为 验证 集 。 为 了 进行 模型 选择 ， 可 以 
在 缩小 的 训练 集 上 训练 每 一 个 模型 ， 然 后 计算 它们 在 验证 集 上 的 损失 。 图 1-12a、b 依次 给 
出 了 训练 和 (log)〉 验证 损失 的 曲线 。 训 练 损 失 随 着 多 项 式 阶 〈 模 型 复杂 度 ) 的 增加 单调 递 
减 。 而 验证 损失 随 着 多 项 式 阶 的 增加 而 快速 增长 ， 这 表明 1 阶 多 项 式 有 最 好 的 泛 化 能 力 ， 能 
够 产生 最 可 靠 的 预测 。 很 容易 测试 这 个 假设 。 在 图 1-13 中 ， 可 以 看 到 数据 集 (已 标记 的 训 
练 集 和 验证 集 ) 与 1 阶 、4 阶 和 8 阶 多 项 式 函 数 (MATLAB 脚本 : olympval. m) 。1979 年 
已 经 执行 了 这 个 任务 ， 很 明显 1 阶 模型 的 确 能 够 给 出 最 好 的 预测 。 
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a) 奥运 会 男子 100 米 数据 的 训练 损失 b) 奥运 会 男子 100 米 数据 的 log 验证 损失 。 当 应 


用 平方 损失 时 ， 它 还 认为 是 平方 预测 误差 和 预测 
值 接近 真实 值 的 度量 。 注 意 ， 这 个 log 损 失 按照 
快速 增长 的 值 绘制 


图 1-12 奥运 会 男子 100 米 数 据 的 训练 和 验证 损失 
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图 1-13 奥运 会 男子 100 米 数据 1 阶 、4 阶 和 8 阶 多 项 式 的 泛 化 能 力 


1.5.2 交叉 验证 


从 验证 集 计算 的 损失 对 于 验证 集 数据 的 选择 敏感 。 如 果 验 证 集 很 小 ， 那 么 更 加 困难 。 交 
叉 验 证 是 一 种 有 效 使 用 现 有 数据 集 的 方法 。 

如 图 1-14 所 示 ，K 折 交 义 验 证 把 数据 集 分 成 大 小 相等 的 开 份 〈 或 者 尽 可 能 相等 )。 每 
块 轮流 作为 验证 集 ， 其 他 K 一 1 块 作 为 训练 集 。 结 果 K 个 损失 值 的 平均 值 作为 最 后 的 损失 
值 。K 折 交 叉 验 证 的 一 个 极端 情况 是 ， 当 开 =N， 即 KK 恰好 等 于 数据 集中 的 可 观测 数据 的 
数量 时 ， 每 个 观测 数据 依次 拿 出 用 作 测 试 其 他 N 一 1 个 对 象 训练 得 到 的 模型 。 交 叉 验 证 的 这 
种 特殊 形式 称 为 留 一 交叉 验证 (Leave-One-Out Cross Validation，LOOCV) ， 对 于 LOOCYV 
的 均 方 验证 为 : 
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训练 集 ”验证 集 


PD" 
所 有 数据 





9 
00 
. 





K 折 


图 1-14 交叉 验证 。 数 据 集 如 左边 的 饼 图 所 示 。 在 每 一 个 K 折 ， 数 据点 的 
一 个 集合 从 训练 集中 移出 ， 用 于 验证 或 测试 模型 
图 1-15 给 出 了 奥运 会 男子 100 米 数据 的 平均 LOOCY 误差 。 该 曲线 表明 3 阶 多 项 式 最 
好 ， 这 与 最 后 少量 数据 点 作为 验证 集 的 结果 不 一 致 。 这 样 的 分 歧 并 不 少见 模型 选择 就 是 
一 个 很 困难 的 问题 。 然 而 ， 这 两 个 方法 都 认为 模型 不 应 该 是 6 阶 或 者 更 高 阶 。 
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多 项 式 阶 
图 1-15 平均 LOOCYV 损失 作为 递 阶 多 项 式 与 奥运 会 男子 100 米 数据 拟 合 
实际 数据 集 上 的 模型 选择 问题 的 一 个 缺点 是 并 不 知道 真实 模型 是 什么 样 的 ， 因 此 不 知道 


选择 技术 是 否 有 效 。 但 可 以 通过 生成 一 个 合成 数据 集 克 服 这 个 困难 。 用 带 噪声 的 3 阶 多 项 式 
函数 生成 的 50 个 输入 目标 对 学 习 递 增 (从 1 一 7) 多 项 式 函 数 。 理 想 情 况 下 ， 和 希望 看 到 3 阶 
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多 项 式 函 数 的 最 小 验证 损失 。 再 从 真实 函数 / 原 函 数 中 生成 1000 个 输入 目标 对 ， 作 为 独立 的 
测试 集 计 算 额 外 的 独立 损失 。 与 LOOCY 损失 比较 ， 这 个 大 数据 集 能 够 给 出 一 个 很 好 的 近似 
正确 的 期 望 损失 。 

图 1-16 给 出 了 上 面 的 结果 (MATLAB 脚本 : cv_demo. m) 。 正 如 我 们 看 到 的 ， 训 练 损 
失 随 着 阶 的 增加 而 减 小 。 当 阶 增加 到 3 阶 (包括 3 阶 ) 之 前 LOOCY 损失 和 测试 损失 会 减 
小 ， 然 后 再 随 着 阶 的 增加 而 增加 。 这 些 验证 方法 都 可 以 预测 正确 模型 的 阶 。 不 幸 的 是 ， 我 们 
很 难 从 训练 集 外 获得 1000 个 独立 的 点 ,在 很 大 程度 上 这 将 依赖 于 交叉 验证 方案 ,通常 是 
LOOCYV 。 
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图 1-16 在 50 个 样本 大 小 下 ， 从 带 有 了 噪声 的 立方 函数 获得 的 训练 、 测 试 和 留 一 损失 曲线 
作为 训练 和 LOOCY 估计 。 使 用 1000 个 独立 样本 计算 测试 误差 


1.5.3 K 折 交叉 验证 的 计算 缩放 


留 一 (LOO) 交叉 验证 似乎 是 估计 训练 数据 集 期 望 损失 的 一 种 好 方法 ， 它 可 以 查看 和 
评估 各 种 可 选择 的 模型 。 然 而 ， 考 虑 LOOCYV 的 实现 。 需 要 训练 模型 N 次 ， 这 上 比 只 在 所 有 
数据 上 训练 一 次 多 耗费 大 约 N 倍 的 时 间 (这 样 说 并 不 完全 准确 ， 因 为 训练 是 在 小 的 数据 点 
上 进行 的 ) 。 对 于 某 些 模型 ， 尤 其 是 有 很 多 数据 的 模型 ， 该 方法 可 能 并 不 可 行 。 

缓解 这 个 问题 最 简单 方法 就 是 让 K&N。 例如 ， 在 10 折 交 叉 验 证 中 ， 可 以 用 其 中 10% 
的 数据 做 验证 ， 其 他 剩 下 的 90% 做 训练 。 这 样 会 降低 从 N 一 10 的 训练 循环 数 一 一 如 果 N 污 
10， 那 么 将 是 一 个 相当 大 的 节省 。 通 常 的 选择 是 用 N 折 交 叉 验证 ， 并 且 应 用 不 同 分 割 的 N 
组 数据 多 次 反复 ， 对 每 次 重复 的 验证 结果 求 平均 作为 最 后 的 结果 。 


1.6 正则 化 最 小 二 乘法 


在 前 面 的 章节 中 ， 我 们 讨论 了 使 用 部 分 训练 数据 进行 预测 以 确保 好 的 预测 性 能 (好 的 泛 
化 ) ， 避 免 模型 的 过 拟 合 。 本 质 上 ， 也 可 以 防止 模型 过 于 复杂 。 然 而 ， 正 则 化 方法 也 可 以 实 
现 这 个 功能 。 

定义 一 个 简单 模型 f(x;w ) 二 w'x， 其 中 w 二 [0，0，…，0] 一 一 该 模型 总 会 预测 出 0 
值 。 这 是 最 简单 的 模型 。 对 了 蔬 元 素 做 任何 改变 都 会 增加 它们 的 绝对 值 ， 使 模型 变 得 更 复杂 。 
具体 来 说 ， 考 虑 5 阶 多 项 式 模型 


fzsw) = wo wz wr wr wx ws x 
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如 果 让 w 所 有 元 素 的 初 值 都 为 0， 那 么 函数 总 会 预测 出 0 值 。 假 设 zw 为 某 个 非 0 值 。 
现在 模型 就 会 预测 出 一 个 常量 (wo。)。 让 wo 为 其 新 值 ， 设 置 wi 为 某 个 值 。 模 型 已 经 变 复杂 
了 ， 同 时 每 个 额外 参数 给 定 一 个 非 0 值 ， 模 型 就 会 更 加 复杂 。 通 常 ，w 的 绝对 值 总 和 越 大 ， 
其 模型 也 就 越 复 杂 (注意 ， 是 绝对 值 一 一 不 希望 正 数值 消除 负数 值 )。 男 外 ， 由 于 绝对 值 往 
往 在 数学 上 表现 得 更 复杂 一 些 ， 所 以 定义 模型 的 复杂 度 为 


2 
Dw 
1 





或 者 ， 表 示 为 向 量 形式 ， 
ww 
由 于 不 希望 模型 过 于 复杂 ， 所 以 让 这 个 值 小 是 有 意义 的 。 因 此 ， 不 仅仅 要 减 小 平均 平方 损失 
C， 更 要 减 小 由 之 前 损失 和 复杂 度 惩罚 项 造成 的 正则 化 损失 C : 
L’=L++Aw'w (1-20) 


参数 4 控制 数据 拟 合 程度 惩罚 项 (L) 和 模型 复杂 程度 惩罚 项 w'w 的 折 中 。 可 以 精确 地 获得 
与 前 面 方 法 相同 的 w 的 最 优 值 。 在 原来 的 平方 损失 ( 式 〈1-14)) 中 增加 一 个 正则 化 项 : 
6" er dh 
求 取 关于 w 的 偏 导数 
DC ” _2 


人 一 XTXw Xt 在 Ww 





让 其 结果 等 于 0， 求 ww 
2VT 2WT 至 
NX Xrw NX ft 2Aw 0 
(X'X+ NI) w= Xt 
因此 ， 由 正则 化 最 小 二 乘法 得 到 : 
w= (XKX+NI) Xt C4-21) 


很 明显 ， 如 果 X 二 0， 则 和 原来 的 答案 一 样 。 可 以 在 合成 的 例子 中 增加 X 的 值 看 其 效果 。 
图 1-17 给 出 了 6 个 合成 数据 点 。 可 以 看 到 ， 如 果 让 4 一 0， 那么 5 阶 多 项 式 函 数 可 以 精确 地 





4=1e-06 
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图 1-17 5 阶 多 项 式 函 数 随 正则 化 参数 4 变化 的 不 同 效果 
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拟 合 这 6 个 数据 点 〈 一 般 情 况 下 ，N 一 1 阶 多 项 式 可 以 完美 地 拟 合 N 个 数据 点 ) 。 如 果 开 始 
增加 4 的 值 ， 看 看 正则 化 的 效果 。 当 4 二 1e 一 06 时 ， 遵 循 5 阶 多 项 式 的 大 体形 状 但 是 没有 那 
么 多 变化 ， 因 此 结果 偏离 了 数据 点 。4 二 0.01 和 4 二 0.1 继续 这 个 趋势 一 一 函数 变 得 不 那么 
复杂 (MATLAB 脚本 : regls. m)。 


选择 4 值 与 选择 多 项 式 阶 时 对 于 过 拟 合 / 泛 化 的 折 中 是 一 样 的 。 如 果 值 太 小 ， 函 数 就 可 


能 太 复 杂 ;， 值 太 大 ， 又 不 利于 逼近 数据 。 幸 运 的 是 ， 可 以 准确 地 使 用 前 面 章节 中 介绍 的 验证 
技术 确定 4 的 最 佳 值 。 特 别 是 ， 一 般 采 用 交叉 验证 选择 能 够 获得 最 好 预测 性 能 的 4A 值 ( 见 练 
可 EX 112) : 


1.7 练习 


EX 1. 1 
EX 1. 2 
EX 攻 3 


EX 1. 4 
EX 1. 5 


EX 1. 
EX 1. 
EX 1. 
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dh 


EE 
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根据 图 1-1 估计 w。 和 wi 的 取 值 类 型 。( 如 高 ? 低 ? 正 值 ? 负 值 ?) 
对 任意 (zx,，4,) 对 组 成 的 数据 集 ， 编 写 一 段 Matlab 脚本 来 计算 zw 和 wi 的 值 。 
证 明 


N N N 
w!'X' Xrw = w: ( D3 ) 十 2zoo wi ( Dz Ti )+ ve ( > ) zt ) 
n=1 n=l a 
其 中 ， 


2 
To 

w= 二 = | zl Xa 
Wi . . 


TN1 TN2 
(提示 : 可 先 计 算 X"X)。 
使 用 上 一 题 (EX 1. 4) 中 定义 的 ww 和 瑟 ， 通 过 展开 等 式 两 端 来 证 明 (Xw )7 = 二 wTXT 。 
当 向 量 (或 者 矩阵 ) 乘 以 一 个 标量 的 时 候 ， 仅 需 对 每 个 向 量 〈 或 者 矩阵 ) 的 每 个 元 素 分 别 乘 以 这 
个 向 量 。 给 定 x 二 [zas wz] t= [it] 二 [ww 砚 ] 和 


证 明 : 

Sie 
和 . 
> xnxT 一 X'Xw 

使 用 表 1-3 提供 的 数据 ， 找 出 减 小 平方 损失 的 线性 模型 。 

根据 上 一 题 (EX 1. 6) 中 获得 的 模型 ， 预 测 2012 年 和 2016 年 奥运 会 女性 获胜 的 时 间 。 

使 用 男子 和 女子 100m 的 模型 ， 找 出 女子 超越 男子 的 奥运 会 项 目 。 预 测 的 获胜 次 数 是 多 少 ? 预测 
结果 现实 吗 ? 

使 用 synthdata. mat 数据 ， 拟 合 4 阶 多 项 式 函 数 f(x;w) = 十 rm 十 zz 十 rz 十 rz 。 你 
发 现 we 和 rw 有 什么 特点 ? 使 用 10 折 交 叉 验证 来 选择 多 项 式 的 阶 数 (从 1 一 4) 。 


. 10 推导 出 最 优 最 小 二 乘法 的 参数 值 妈 ， 对 于 所 有 的 训练 损失 ; 


N 
Ri Yh, wi 
严 一 上 


比较 该 公式 与 平均 损失 函数 有 什么 不 同 ? 
下 面 的 公式 称 为 加 权 平 均 损失 : 
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N 
1 i 
L= 六 2 — vw! x,)’ 


其 中 ， 每 个 数据 点 的 作用 由 相应 的 参数 决定。 假设 每 个 w 都 是 固定 的 ， 推 导 最 优 最 小 二 乘法 的 


参数 全 。 

EX 1. 12 使 用 折 交 叉 验 证 找到 最 优 的 ， 对 奥运 会 男子 100 米 数据 具有 最 佳 的 预测 结果 ， 
a 1 阶 多 项 式 〈 即 标准 线性 模型 
b 4 阶 多 项 式 模型 


其 他 阅读 材料 


[1] F. Galton. Regression towards mediocrity in hereditary stature. Anthopological 
Miscellanea, 15:246-263, 1886. 
“回归 ”一 词 由 Francis Galton 首次 在 遗传 学 背景 下 提出 。 这 是 Galton 从 1886 年 以 来 关于 回归 的 
最 初 遗 传 学 论文 之 一 。 
[2] T. Hastie, R. Tibshirani, and J. Friedman. The Elements of Statistical Learning: 
Data Mining, Inference, and Prediction. Springer, second edition, 2009. 
这 本 书 中 有 一 章 详细 地 讲解 了 最 小 二 乘 技术 ， 这 个 技术 是 进一步 开发 这 个 想法 的 好 起 点 。 
[3] K. B. Petersen and M. S. Pedersen. The matrix cookbook. 
http://www2.imm.dtu.dk/pubdb/p.php?3274, October 2008. 


提供 了 许多 有 用 的 矩阵 恒等式 的 优秀 免费 资源 。 特 别 是 ， 一 个 提供 许多 纸 阵 公式 的 极 好 的 免费 
资源 。 和 希望 对 多 元 高 斯 密度 函数 的 使 用 特别 有 用 。 
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第 1 章 介绍 了 通过 定义 和 最 小 化 损失 函数 来 学 习 模 型 参数 的 方法 。 在 本 章 的 末尾 ， 我 们 
将 从 不 同 的 起 点 推导 出 完全 相同 的 方程 来 优化 模型 参数 。 特 别 地 ， 我 们 引入 一 个 随机 变量 来 
显 式 地 对 数据 中 的 噪声 〈 模 型 和 观测 值 之 间 的 误差 ) 建 模 。 同 时 说 明 在 模型 中 引入 噪声 项 的 
可 观 优势 。 本 章 的 大 部 分 (2. 2 一 2.5 节 ) 介绍 随机 变量 和 概率 的 相关 内 容 ， 已 经 有 相关 知 
识 的 读者 可 以 跳 过 本 部 分 。 


2.1 误差 作为 噪声 


在 图 1-5 中 ， 我 们 看 到 使 用 线性 模型 通过 最 小 化 损失 函数 来 建 模 奥运 会 100m 数据 的 结 
果 。 线 性 模型 看 上 去 好 像 能 够 捕捉 到 令 人 关注 的 下 降 趋势 ， 但 是 它 不 能 完美 地 解释 每 一 个 数 
据点 因为 模型 和 实际 数据 之 间 存 在 误差 。 在 图 2-1 中 标注 了 这 些 误差 。 
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图 2-1 奥运 会 男子 100 米 数据 的 线性 拟 合 ， 标 注 了 误差 


在 构建 模型 的 时 候 ， 我 们 假设 年 和 比赛 时 间 存 在 线性 关系 。 这 个 模型 看 起 来 能 够 捕获 数据 
中 的 总 体 趋势 ， 同 时 忽略 模型 和 观测 数据 之 间 间 或 出 现 的 较 大 偏差 。 从 建 模 的 观点 来 看 ， 很 难 
忽略 这 些 误 差 。 如 果 我 们 知道 如 何 表示 这 些 误 差 ， 那 么 我 们 应 该 努力 将 它们 构建 在 模型 中 。 

本 章 将 看 到 显 式 地 对 这 些 误 差 建 模 的 好 处 。 特 别 地 ， 这 将 允许 我 们 在 估计 模型 参数 w 时 
表达 不 确定 性 的 级 别 一 一 如 果 稍 稍 改 变 w ， 这 还 是 一 个 好 的 模型 吗 ? 这 反 过 来 允许 我 们 表 
达 预 测 中 不 确定 性 的 程度 一 一 “我 们 相信 获胜 时 间 将 在 a、5 之 间 ” 而 不 是 “我 们 认为 获胜 
时 间 一 定 是 c”。 


2. 1.1 产生 式 的 考虑 
产生 这 个 特定 数据 集 的 过 程 很 复杂 一 一 我 们 甚至 不 能 开始 构造 一 个 近乎 完美 的 模型 来 表 
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示 一 个 短跑 运动 员 以 及 影响 其 准备 和 表现 的 事件 ， 更 不 用 说 多 个 运动 员 和 所 有 其 他 因素 了 。 
然而 ， 将 建 模 问题 当做 产生 式 模 型 仍然 是 有 用 的 : 我 们 能 建立 一 个 模型 ， 使 得 这 个 模型 产生 
与 现 有 数据 相似 的 数据 集 吗 ? 虽然 我 们 承认 实际 数据 不 是 这 样 产生 的 这 个 事实 ， 但 我 们 将 会 
发 现 这 是 一 个 有 用 的 策略 。 

我 们 怎样 着 手 从 现在 的 模型 生成 数据 呢 ? 对 于 等 式 f(x;w) 二 w x ， 如 果 代 入 第 1 章 
得 到 的 ww 值 ， 那 么 这 个 等 式 就 能 够 针对 每 一 个 特殊 的 年 份 产生 一 个 获胜 时 间 。 图 2-2 给 出 
了 这 种 方法 产生 的 1920 一 2000 年 的 获胜 时 间 。 这 与 图 2-1 的 数据 看 上 去 并 不 是 很 像 。 为 了 
让 这 组 数据 更 贴近 现实 ,需要 增加 一 些 误差 。 检 查 图 2-1， 我们 发 现 这 些 误差 有 两 个 重要 
特征 。 

1) 每 年 的 误差 都 不 同 。 有 些 是 正 的 有 些 是 负 的 ， 并 且 大 小 不 同 。 

2) 误差 的 大 小 或 方向 与 年 份 之 间 并 没有 明显 的 关系 。 误 差 不 像 是 奥运 会 年 份 工 的 函数 。 
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图 2-2 使 用 线性 模型 生成 的 数据 集 


如 果 有 方法 产生 或 正 或 负 的 随机 大 小 的 时 间 ( 秒 级 )， 并 且 这 个 时 间 与 图 2-1 的 误差 大 
臻 相等， 那么 我 们 就 能 够 针对 每 一 个 数据 点 生成 这 样 一 个 我 们 想 要 的 时 间 并 且 可 以 将 它 加 到 
w'x 上 。 将 我们 需要 的 可 变性 引入 模型 的 工具 来 源 于 统计 学 。 下 一 节 我 们 将 介绍 随机 变量 和 
使 用 随机 变量 的 几 种 方法 。 熟 悉 这 些 内 容 的 读者 可 以 跳 至 2. 6 节 。 


2.2 随机 变量 和 概率 


我 们 建立 的 任何 模型 都 是 产生 观测 数据 的 真实 系统 的 简化 。 这 导致 了 模型 和 现实 的 差 
异 。 本 节 介 绍 的 工具 将 帮助 我 们 建 模 和 理解 这 种 差异 。 因 为 我 们 必须 从 基础 开始 ， 所 以 开始 
的 时 候 它 可 能 与 将 误差 加 入 100 米 数据 和 表达 预测 不 确定 性 这 个 特定 问题 无 关 。 但 是 随 着 进 
一 步 深入 ， 这 种 联系 将 逐渐 清晰 。 


2.2.1 随机 变量 


方程 
y= 57zX—2 
有 工 和 y 两 个 变量 。 如 果 已 知 其 中 一 个 (例如 y= 二 8)， 那 么 就 能 够 求解 出 男 一 个 (二 2 ) 。 


第 2 章 线性 建 模 : 最 大 似 然 方法 


随机 变量 与 此 很 不 相同 。 随 机 变量 允许 我 们 对 随机 事件 指派 数值 。 例 如 ， 想 要 对 抛 硬币 的 结 
果 建 模 。 开 始 时 设置 一 个 变量 X ， 如 果 正 面 朝 上 赋 给 和 X 值 1， 否则 为 0。X 是 一 个 随机 变 
量 一 一 “变量 ”部 分 描述 了 X 可 以 取 不 同 值 的 事实 〈 这 里 是 0、1) ， 而 所 谓 的 “随机 ”是 指 
在 抛掷 硬币 发 生 之 前 我 们 不 知道 X 取 什 么 值 。 我 们 不 能 用 与 标准 变量 函数 相 类 似 的 方式 来 
表达 这 个 结果 (例如, y = 5z 一 2 )。 按 照 惯例 ， 我 们 用 大 写字 母 来 表示 随机 变量 ， 用 小 写字 
母 来 表示 这 个 随机 变量 可 以 取 的 值 。 

随机 变量 有 两 种 类 型 ， 并 且 这 两 种 随机 变量 处 理 起 来 稍 有 不 同 。 离 散 随机 变量 是 最 容易 
理解 的 概念 ， 它 们 用 来 表示 随机 事件 ， 对 于 这 些 随机 事件 ， 我 们 可 以 系统 地 列 出 随机 事件 所 
有 可 能 的 结果 。 例 如 ， 离 散 随机 变量 可 以 用 来 描述 投 硬币 〈 可 能 的 结果 为 0、1)， 或 者 掷 骨 
子 〈 可 能 的 结果 为 1 一 6)。 所 以 可 能 结果 的 集合 叫做 样本 空间 。 

能 够 有 组 织 地 按 顺 序 写 出 所 有 的 事件 似乎 应 该 适用 于 任何 的 事情 。 实 际 上 ， 有 许多 可 能 
发 生 的 事件 并 非 如 此 。 以 奥运 会 男子 100m 为 例 ， 假 设 获胜 时 间 为 9 一 10 秒 。 我 们 尝试 系统 
地 写 下 所 有 的 可 能 : 

9 9 ls D2 

在 某 一 点 上 ， 我 们 意识 到 我 们 错过 了 一 些 例如， 所 有 9 一 9. 1 之 间 的 可 能 )， 因 此 我 们 重新 
开始 : 





9 90Ts G0 em DG ly ws 
但 是 9 一 9. 01 的 值 怎么 办 ? 第 三 次 尝 
9，9.001，9.002，9.003，.…，9.01，… 

这 个 事件 所 有 可 能 的 结果 不 能 够 系统 地 写 出 表 2-1 可 以 使 用 随机 变量 建 模 的 事件 
来 〈 每 次 写 下 两 个 值 之 后 ， 两 个 值 之 间 都 有 和 Se 
一 些 丢 失 的 值 )。 对 于 这 种 事件 ， 我 们 使 用 连 投 肯 子 离散 
续 随机 变量 。 100 米 比 赛 的 结果 连续 

表 2-1 给 出 了 我 们 想 要 使 用 随机 变量 建 。 说 讼 案 体 的 纪 果 和 | 敲 
模 的 事件 或 者 量 ， 有 离散 的 也 有 连续 的 。 下 《人 的 身高 连续 

丫 裔 六 A 大 卵石 的 质量 连续 
面 我 们 通过 离散 随机 变量 介绍 几 个 重要 概念 ， ee 
之 后 青 将 这 些 概 念 扩 展 到 连续 随机 变量 情形 。 ”100 米线 性 回归 模型 中 的 误差 “| 见 练习 EX 2.1 





2.2.2 概率 和 概率 分 布 


设 Y 是 表示 抛 硬币 的 随机 变量 。 正 面 ， 则 Y= 1 ; 反面 , 则 Y= 二 0 。 要 对 这 个 事件 建 模 ， 
需要 能 够 量化 每 一 个 结果 的 可 能 性 。 对 于 离散 随机 变量 ,我 们 定义 不 同 结果 的 概率 来 达到 这 个 
目的 。 考 虑 一 个 特定 结果 概率 的 一 个 直观 方法 是 假设 它 表 示 该 结果 出 现 的 次 数 与 事件 重复 次 数 
的 比例 。 如 果 抛 公平 ( 即 两 面 朝 上 可 能 性 一 致 》 硬 币 1000 次 ， 那 么 我 们 期 望 看 到 正面 向 上 的 
概率 大 约 占 一 半 ( 剩 下 的 反面 朝 上 )。 将 正面 朝 上 的 概率 ( P(Y 二 1) ) 定义 为 一 半 或 者 0. 5 看 
起 来 是 合理 的 。 如 果 硬 币 不 是 正面 朝 上 ， 那 么 它 将 反面 朝 上 (在 我 们 的 样本 空间 中 只 有 这 两 种 
可 能 )， 因 此 反面 朝 上 的 概率 是 1 减 去 正面 朝 上 的 比例 。 因 此 ，P(Y=0) 王 1 一 PCY 一 1) 一 0.5。 

多 次 重复 实验 时 ， 以 一 个 特定 结果 发 生 次 数 的 比例 作为 概率 不 是 我 们 能 想到 的 定义 概率 
的 唯一 方法 。 特 别 是 对 于 某 些 只 能 出 现 一 次 的 事件 ， 它 并 不 总 是 最 自然 的 类 比 。 相 对 于 我 们 
的 需要 它 已 经 足够 了 ， 但 是 鼓励 读者 进一步 研究 这 个 领域 。 

从 我 们 对 比例 的 简单 讨论 中 ， 能 够 得 到 掌握 概率 的 两 条 重要 规则 : 

。 概率 必须 大 于 或 等 于 0 (比例 不 能 为 负数 ) 同时 小 于 或 等 于 1 。 

。 所 有 可 能 单个 结果 的 概率 之 和 必须 等 于 1 。 
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例如 ， 抛 硬币 : Pl(Y=1)+P(Y=0)=1 
撕 散 子 : Pl(Y=1)+P(Y=2)++…++P(Y=6)=1 
这 些 陈述 等 同 于 数学 表达 式 : 
0 RY = 1 (2-1) 
ws -1 (2-2) 


依据 惯例 ， 小 写字 母 > 表示 随机 变量 Y 可 以 取 的 所 有 可 能 值 。 注 意 ， 我们 经 常 需要 书写 对 随机 
变量 所 有 取 值 求 和 ， 为 了 保持 符号 简明 ， 用 >) 表示 对 随机 变量 Y 所 有 可 能 的 取 值 求 和 。 


P(Y = y) 是 一 个 标量 一 一 随机 变量 Y 取 值 为 y 的 概率 。 这 个 符号 有 时 候 是 不 方便 的 ， 
因此 我 们 有 时 候 使 用 下 面 的 简写 : 
P(Y = y) = Ply) 
所 有 可 能 取 值 的 集合 (所 有 的 y) 和 它们 的 概率 ( P(y) ) 称 为 概率 分 布 。 它 表明 总 概 
率 (1) 如 何在 所 有 可 能 的 结果 上 分 配 。 
通常 ， 我 们 使 用 式 (2-1) 和 式 〈2-2) 基于 某 些 基本 假设 来 定义 概率 。 例 如 ， 抛 硬币 例 
子 中 ， 我 们 假设 正 、 反 两 个 结果 是 等 可 能 的 : P(Y = 1) = P(Y = 0} = 二 7+。 将 这 个 假设 代入 
式 〈2-2)， 并 且 已 知 ~ 属 于 0 一 1， 我 们 可 以 使 用 基本 代数 计算 出 > 的 值 〈( 见 练习 EX 2. 2) 。 
Pl(Y =0)+P(Y=1)=1 
2 六 二 








2.2.3 概率 的 加 法 


设 闻 是 一 个 随机 变量 ， 用 来 对 掷 公 平 仍 子 的 结果 建 模 。 如 果 假 设 仍 子 是 公平 的 ， 即 所 
有 结果 是 等 可 能 的 ， 通 过 上 一 节 我 们 知道 计算 每 一 个 结果 (1、2、3、4、5、6) 的 概率 需要 
足够 的 知识 。 掷 一 次 仍 子 且 点 数 是 4， 再 次 投掷 观 子 ， 点 数 小 于 4 的 概率 是 多 少 ? 或 者 我 们 
玩 一 个 打赌 的 游戏 ， 想 要 知道 是 否 出 现 奇 数 。 小 于 4 的 所 有 点 数 是 1、2、3， 这 表明 我 们 能 
够 计算 货 子 出 现 1、2、3 点 的 概率 。 如 果 蜗 子 已 经 投掷 了 许多 次 ,那么 我 们 能 够 计算 某 一 点 
数 出 现 的 比例 。 出 现 1、2、3 点 数 的 比例 等 于 出 现 1 点 的 比例 加 上 出 现 2 点 的 比例 以 及 出 现 
3 点 的 比例 。 这 引导 我 们 得 出 概率 的 加 法 定律 : 
P(Y<=4)= P(Y=1)+P(Y = 2)+P(Y = 3) 
无 论 我 们 感 兴趣 的 结果 的 顺序 如 何 ， 都 得 到 了 完全 一 致 的 答案 。 例 如 ， 投 掷 出 1 点 或 者 6 点 
的 概率 应 该 是 P(Y = 二 1) 十 P(Y 二 6) 。 这 并 不 仅仅 限制 在 特定 的 结果 上 。 例 如 ， 掷 如 子 出 现 
不 是 4 点 的 概率 可 以 这 样 计算 : 
Pl(Y¥4)=P(Y=4)+P(Y>4) 
= P(Y=1)++P(Y=2)+P(Y = 3)+P(Y = 5)+P(Y = 6) 
顺便 说 一 下 ， 值 得 记 住 的 是 一 般 有 多 个 方法 计算 概率 。 在 这 个 例子 中 ,事实 上 使 用 式 (2-2) 
计算 更 简单 : 
Pl(Y¥4)++P(Y=4)=1 
P(G7Y 尖 4) 王 1 一 P(IY = 4) 


2.2.4 条 件 概率 . 
一 个 事件 常常 会 影响 另 一 个 事件 的 结果 。 例 如 ， 抛 一 个 硬币 然后 我 告诉 你 结果 (你 看 不 
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到 硬币 )。 这 里 有 两 个 事件 : 第 一 个 ， 抛 硬币 ; 第 二 个 ,我 告诉 你 抛 硬币 的 结果 。 假 设 这 两 
个 事件 用 两 个 随机 变量 X 和 站 表示 。 如 果 正 面 朝 上 ，X 为 1; 反面 朝 上 ，X 为 0。 如 果 我 告 
诉 你 正面 了 为 1; 和 否则， 为 0。 除非 我 行为 怪异 ， 否 则 ,，Y 的 结果 将 依赖 于 XX 的 结果 。 使 用 
条 件 概率 表达 已 知 X 取 特 定 值 的 时 候 Y 也 取 特 定 值 的 概率 。 
POC= ylX = x) 273) 
读 作 当 X 取 值 为 x 时 , Y 取 值 为 y 的 概率 。 与 非 条 件 概 率 一 样 ， 我 们 使 用 如 下 的 简写 : 
了 
在 我 们 的 例子 中 ， 如 果 假 设 我 总 是 说 真 话 ， 那 么 硬币 是 正面 我 告诉 你 硬币 是 正面 的 概率 
是 1 (总 是 发 生 ): 


五 (一 让 | 过 三 芒 研 1 
对 于 反面 也 是 一 样 : 
P(Y=0|X=0)=1 
使 用 式 〈2-2) 和 上 述 的 概率 ， 我 们 可 以 推导 出 P(Y = 二 0|X==1) 和 P(Y= 二 1|X=0): 
Pl(Y=0|X=1)+P(Y=1|X=1)=1 
Pl(Y=0|X=1)=1—P(Y=1|X=1)=0 
Pl(Y=1|X=0)+P(Y=0|X=0)=1 
PY = i=0 = 1— PY=1| 芝 = 人 =6 
如 果 我 不 诚实 ， 那么 事情 将 会 变 得 更 有 趣 。 假 设 硬币 反面 朝 上 我 总 是 说 真 话 ， 但 是 如 果 
硬币 是 正面 我 说 真 话 ( 即 正面 ) 次 数 的 比例 是 0.8。 这 意味 着 ， 如 果 硬 币 是 正面 我 说 正面 的 
概率 是 0.8， 说 反面 的 概率 是 0.2。 在 这 个 假设 下 ， 所 有 的 条 件 概率 如 下 : 
P(Y=1|X=1)=0.8 
p= 0|E= 1 =0.2 
P| 二 0 =0 
PY 二 0| 攻 二 0 =1 


与 非 条 件 概 率 一 样 ， 概 率 必须 满足 式 (2-2)， 即 >\P(Y = y|X = z) = 1, 检查 刚 计算 的 值 : 

















SPY y|X=1)=P(Y=1|X=1)+P(Y=0|X=1)=0.8+0.2=1 





DP(Y=y|X=0)=P(Y=1|X=0+P(Y=0|X=0)=0+1=1 


有 条 件 概率 并 假设 P(X = 1) = P(X 二 0) = 0.5( 即 硬币 是 公平 的 )， 我 们 可 能 会 问 :“ 硬 币 
是 正面 ,我 说 正面 的 概率 是 多 少 ?” 这 与 P(Y = 二 1|X==1) 不同: 这 个 条 件 概率 假设 X=1 已 
经 发 生 ， 唯 一 不 确定 的 是 剩 下 的 了 将 是 什么 结果 。 然 而 我 的 问题 关注 这 两 个 事件 (X==1 和 
Y 王 1)。 如 果 都 没有 发 生 ， 那 么 它们 同时 取得 特定 结果 的 概率 是 多 少 ?” 我 们 可 能 需要 评估 其 
他 感 兴趣 的 量 是 P(Y = 1) 和 P(Y = 0) ， 即 我 说 硬币 是 正面 或 者 反面 的 概率 。 为 此 ， 需 要 
多 元 概率 和 多 项 分 布 的 知识 。 














2.2.5 联合 概率 


已 知 2 个 (或 更 多 ) 随机 变量 ,我 们 可 能 想 知道 它们 每 个 取得 某 一 特定 值 的 概率 。 继 续 
讨论 之 前 抛 硬 币 的 例子 。 我 们 可 能 想 要 知道 硬币 是 正面 同时 我 说 正面 或 者 硬币 是 反面 同时 我 
说 正面 的 概率 。 这 些 是 联合 概率 ， 定 义 为 : 


P(Y=y,X= 7) (2-4) 
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(或 者 表示 成 函数 形式 p(y,x))。 我 们 如 何 处 理 联 合 分 布依 赖 于 这 些 随机 变量 是 否 相 关 。 在 
我 们 的 例子 中 ，Y (我 说 的 结果 ) 依赖 于 X〈 抛 硬币 的 结果 )。 和 情况 就 是 这 样 ， 即 使 我 不 那 
么 诚实 ， 抛 硬币 的 结果 也 决定 我 说 什么 。 如 果 两 个 变量 没有 相关 性 〈 例 如， 两 个 随机 变量 表 
示 不 同 的 抛 硬 币 事 件 ， 一 个 结果 不 可 能 影响 男 一 个 结果 )， 那 么 联合 概率 可 以 通过 两 个 单独 
概率 相 乘 来 计算 : 





P(Y = y;X = z) Pl(Y = y) X P(X = x) 
Y 取 值 y 并且 X 取 值 x 的 概率 等 于 Y 取 值 y 的 概率 乘 以 X 取 值 zx 的 概率 。 更 一 般 地 (为 了 方 
便 ， 我 们 使 用 函数 形式 wm ，…，yj) 而 不 是 POCO 二 yy，…, 二 y))， 对 于 J 个 随机 变量 ， 有 





a 
P(y sy sy) = Ply) X py) xX: XP(y) = J| PCO) (2-5) 


如 果 这 些 事 件 是 相互 依赖 的 ， 那 么 我 们 就 不 能 以 这 种 方式 分 解 联合 概率 。 然 而 ， 如 果 能 
建立 条 件 概率 分 布 ， 我们 就 可 以 使 用 如 下 定义 来 分 解 联 合 概 率 : 
POY — ym) PY VX= Xx P(X 7) (2-6) 
或 者 
PC =) PX Ye vx PY (2-7) 
所 以 ， 硬币 正面 朝 上 并 且 我 说 正面 的 概率 是 
pl(Y 1,X 1 PRY 1|X 1) XxX:.P(X = 1) = 0;8X0,5 = 0.4 
或 者 ， 换 句 话 说 ， 如 果 重 复 多 次 实验 ,那么 硬币 朝 上 并 且 我 说 朝 上 的 比例 是 0.4。 我 偶尔 撒 
谎 的 事实 使 得 硬币 是 正面 你 也 听 到 正面 的 概率 从 0.5 (我 诚实 的 情况 下 ) 下 降 至 0. 4。 
XX 和 Y 有 4 种 可 能 的 组 合 ， 因 此 有 4 种 可 能 的 结果 。 式 (2-2) 表明 : 如 果 将 这 4 种 情 
况 的 概率 相 加 ， 和 应 该 是 1。 








B00 4 | (2-8) 


(注意 : >) 对 应 着 对 zx、y 所 有 4 种 可 能 组 合 情 况 求 和 )。 我 们 可 以 使 用 式 (2-6) 计算 所 有 


情况 来 检测 式 (2-8)。 我 们 已 经 知道 P(X = 1,Y = 1) = 0.4 。 其 余 的 是 : 
PAY =05X=D= PY=0X= DPX=1D)=0.205=01 
PCY=1X=0= PY=1|X=0P(X =0) =0X0,5=0 
Pl(Y=0,X=0)= P(Y=0|X=0)P(X=0)=1X0.5= 0.5 
根据 需要 将 这 些 加 在 一 起 ， 即 0. 4 十 0. 1 十 0 十 0. 5 二 1。 

在 继续 下 面 的 内 容 之 前 ， 我 们 快速 考虑 这 三 个 值 。 第 一 个 值 (0.1) 给 出 了 硬币 是 正面 
我 说 是 反面 的 概率 。 这 比 我 诚实 情况 下 对 应 的 概率 有 所 增加 (我 总 是 说 真 话 时 的 概率 是 0)， 
因为 硬币 是 正面 时 我 偶尔 撒谎 。 第 二 个 值 (0) 给 出 了 硬币 实际 是 反面 而 我 说 是 正面 的 概率 。 
这 个 值 是 0， 因 为 硬币 是 反面 的 时 候 我 从 不 撒谎 。 第 三 个 值 给 出 了 硬币 是 反面 而 我 也 说 是 反 
面 的 概率 。 它 是 0.5， 因 为 硬币 有 一 半 的 次 数 是 反面 ， 而 反面 的 时 候 我 总 是 讲 真 话 。 

















2.2.6 边缘 化 

如 果 记 录 我 说 正面 或 者 反面 次 数 的 比例 ， 实 际 上 是 计算 P(Y = 1) 和 P(Y = 0) 。 这 些 
表达 式 没有 包含 X 一 一 它们 仅仅 涉及 我 说 什么 这 个 事件 P(Y = y) 可 以 通过 从 联合 概率 
P(Y = y,X = 二 x) 中 边缘 化 X 得 到 。 这 通过 对 联合 概率 在 X 的 所 有 可 能 取 值 上 求 和 得 到 : 
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PY yy) SP XN) (2-9) 
在 我 们 硬币 的 例子 中 ，X 可 以 取 两 个 值 (0、1) 中 的 一 个 ， 所 以 求 和 就 变 成 
P(Y=»y)=P(Y=y,X=0)+P(Y = y,X=1) 
一 般 而 言 ， 对 于 J 个 随机 变量 的 联合 概率 ,为 了 获得 它们 中 一 个 的 边缘 分 布 Pl(Y; = y;)， 
可 以 通过 如 下 的 公式 : 
PlY,; y;) Pl(y;) 2 P(y1,*,y7) (2-10) 


3 


表达 式 中 的 求 和 符号 看 起 来 有 些 怪异 。 它 表示 对 剩余 ] 一 1 个 变量 (缺少 y;) 的 所 有 可 能 情 
况 求 和 。 人 例如， 如果 jJ 王 3 并 且 每 个 变量 只 能 取 值 0、1， 那 么 为 了 计算 PC(Yi 二 xy) 二 ply) 
就 需要 对 y% 和 ys 的 四 种 不 同 组 合 求 和 : 

Jy2 .y3 


0 0 
0 1 
1 0 
1 1 


如 果 J 三 4， 那么 这 个 数 就 增加 到 8: 


蜂 。 
尖 





一 OO OO OD 
一 吕 OP 一 OSD 
OP OP OP~ OO 


1 1 
一 般 而 言 ， 对 于 二 元 变量 ,组 合 的 数量 是 2 一 ， 它 随 着 本 呈 指 数 增长 。 如 果 随 机 变量 有 
2 个 以 上 的 结果 ， 那 么 情况 更 坏 〈 例 如 ， 对 于 货 子 6')。 在 某 些 机 器 学 习 的 概率 领域 ， 边 
缘 化 非常 重要 ， 也 具有 挑战 性 ， 令 人 振奋 的 近似 方法 将 在 第 4 章 看 到 。 
回 到 硬币 的 例子 , P(Y = 1) 是 
pe) SP = = 








Pl(Y=1,X=0)+P(Y=1,X=1) 
一 0 十 0.4 王 0.4 
并 且 P(Y = 0) 是 


Pl(Y= m= FPO = 0 = 


P(tY = 0= DPY= 0,X= 1 
二 0.5 二 0.1= 0.6 
我 们 也 可 以 使 用 P(Y=1) 的 值 和 式 (2-2) 计算 P(Y = 0) 的 值 。 这 些 概率 表明 ， 我 说 
正面 和 反面 的 次 数 占 总 次 数 的 比例 。 这 不 同 于 抛 硬币 得 到 正面 或 者 反面 的 次 数 占 总 次 数 的 比 
例 (P(X==1)== P(X 二 0) 二 0.5)。 这 一 矛盾 是 由 于 在 结果 告知 过 程 中 的 不 确定 性 引起 的 ， 
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本 章 第 二 个 事件 中 的 人 实际 上 是 噪声 或 者 或 误差 的 来 源 。 注 解 2. 1 提供 了 关于 条 件 概率 和 边 


[DB 





缘 化 的 另 一 个 例子 。 


注解 2. 1 (条 件 概率 和 边缘 化 ) : 假设 我 们 有 一 个 公平 的 硬币 和 两 个 鹏 子 〈 其 中 一 个 有 些 
与 众 不 同 ) 。 我 们 要 使 用 如 下 过 程 生成 一 个 抛 硬 币 事件 〈X) 和 一 个 掷 山子 事件 (Y) 。 首 
先 ， 抛 硬币 。 如 果 是 正面 ， 则 掷 1 号 蜗 子 ， 如果 是 反面 ， 则 掷 2 号 骨 子 。1 号 和 2 号 货 
子 不 一 样 ， 其 概率 按照 如 下 表格 定义 : 











] 甸 和 4 5 6 
i 3 
上 PCy| 一 H) 
下 二 二 和 _ 
2 号 散 了 和 6 6 POyIX=7) 


所 以 ， 掷 出 3 点 的 概率 ，1 号 人 般 子 是 1/6，2 号 骨 子 是 1/4。 因 为 如 果 硬 币 是 正面 我 们 投 
掷 1 号 规 子 ， 反 面 投掷 2 号 仍 子 ， 所 以 有 如 下 的 条 件 概 率 : 
PCy|X = H),P(y|X = 7) 
即 Y 的 概率 分 布依 赖 于 X 的 结果 。 依 据 式 (2-6) 给 出 联合 分 布 : 
ply,7x) = p(y|x)plz) 

可 以 使 用 上 式 计算 出 现 3 点 且 正 面 的 概率 : 

PLY == HY = PY= y= HEX = Y= 1 x ; a 
相应 地 ，3 点 且 反 面 的 概率 : 


pl = 二 ,= T= PB(Y— |Y FEDPCGX 一 TD 一 于 X 本 一 有 


或 者 更 有 趣 一 点 ， 可 以 计算 Y 的 边缘 分 布 。 从 我 们 的 定义 ( 式 〈2-9)) ， 
P(y) = >)P(yz) = >)P(y|z)P(Cz) 
因此 ， 掷 出 3 点 的 概率 是 : 
PFC 一 3) 一 27PG7=3|z)PCz) 


























=P(Y=3|X= H)P(X= H)+P(Y=3|X= TP(X = 7) 
a 1 1 1 _§ 
人 24 














2.2.7 贝 叶 斯 规则 介绍 


虽然 本 章 我 们 不 需要 这 个 概念 ， 但 是 介绍 贝 叶 斯 规则 非常 有 意义 ， 因 为 从 第 3 章 开始 将 广 
泛 涉 及 贝 叶 斯 规则 。 式 (2-6) 的 左 侧 和 式 〈2-7) 的 左 侧 是 相同 的 ， 因 此 右 侧 也 可 以 画 上 等 号 。 
Pl(Y=y|X=zx)P(X=zx)= P(X= zx|Y= y)P(Y = y) 
重新 整理 ,可 以 得 到 Y= 二 yy 条件 下 XX 的 概率 (P(X = x|Y 一 y)) ， 这 依赖 于 =x 条 件 下 YY 
的 概率 。 这 就 是 著名 的 贝 叶 斯 规则 : 





PY VN OP ， 
0 ss nD 





日 ”以 Reverand Thomas Bayes 的 名 字 命名 ， 他 是 英国 数学 家 、 牧 师 ， 他 第 一 个 提出 条 件 概率 的 逆 。 
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在 我 们 的 例子 中 ， 这 是 已 经 知道 我 说 的 结果 ，X 取得 特定 值 的 概率 (或 以 Y= 二 y 为 条 
件 ，X= 二 的 概率 ) 。 如 果 想 要 预测 硬币 实际 的 正 、 反 面 情况 ， 你 很 可 能 对 这 个 公式 感 兴趣 。 
代入 数值 可 以 计算 出 P(X= 1|Y = 1): 


BY =1|X = P(X = 1) 08X05 
Pl(Y = 1) 0.4 


从 上 式 也 可 以 推导 出 P(X = 0|Y 了 == 1) = 二 0( 式 2-2)。 类 似 地 ,可 以 计算 P(X=0|Y = 0): 


a | PLE 二 = 1 放电 久 
PEE. ef P(Y = 0) 0.6 


从 上 和 式 可 以 推导 出 P(X 二 1|Y 二 0)=0;17。 

前 两 个 值 给 出 的 是 我 说 正面 〈 即 Y=1) 时 真实 的 抛 硬币 的 概率 ， 接 下 来 的 两 个 值 是 我 
说 反面 (Y= 二 0) 时 抛 硬币 的 真实 概率 , P(X = 1|Y = 1) == 1 说明， 我 说 正面 意味 着 正面 是 
抛 硬币 的 真实 结果 。P(X = 0|Y = 0) = 0. 83 表示 ， 如 果 你 听 到 的 是 反面 ， 那 么 硬币 出 现 反 
面 (概率 是 0. 83) 比 出 现 正面 〈 概 率 是 0.17) 的 可 能 性 大 很 多 。 建 模 时 以 这 种 方法 首 转 条 
件 非 常 有 用 ， 我 们 将 在 第 3 章 用 到 该 方法 并 且 进一步 讨论 它 。 


P(X =1|Y =1)= 二 1 








二 0. 83 


2.2.8 期 望 值 


当 处 理 随 机 变量 时 ， 使 用 一 个 或 者 多 个 值 来 代表 一 个 分 布 的 特征 非常 有 用 。 均 值 就 是 一 
个 明显 的 例子 一 一 我 们 期 望 随机 变量 采用 平均 值 。 平 均值 是 期 望 值 的 一 个 例子 。 期 望 值 表示 
随机 变量 X 的 函数 /(X) 期 望 取 到 什么 值 ， 定 义 如 下 (离散 随机 变量 ): 


Bee (fCX)) 一 Df) Pz) (2-12) 


例如 ， 如 果 我 们 对 X 的 期 望 值 (均值 ) 感 兴趣 ， 那么 /(X) 二 X ， 并 且 表 达 式 变 为 
Ere (X} = OVEP (CE) 


对 于 公平 的 骨 子 (P(x) = 1/6) ，X 的 期 望 值 是 : 
21 


Ep (X} = 3 十 .十 于 一 ee = 3.5 


从 这 个 例子 中 我 们 注意 到 ， 期 望 值 不 需要 是 随机 变量 可 能 取 值 中 的 一 个 (我 们 不 可 能 揪 
到 3.5 点 )。 
其 他 函数 的 期 望 值 可 以 以 完全 相同 的 方式 计算 。 例 如 , f(X) = X 的 期 望 值 : 
有 由 
Bro{X) 一 Sz 一 + 6 
随机 变量 X 的 函数 的 期 望 值 通 常 不 是 函数 在 X 的 期 望 值 处 的 取 值 ， 明 白 这 一 点 很 重要 。 
数学 上 ， Ep (f(X)} 不 一 定 等 于 f (Ep {X}) o 例如 ， 我 们 刚才 计算 了 Ep {X’} 91/6 » 
它 不 等 于 (Epc {XX))” 二 (21/6)”。 这 两 个 值 在 一 种 情况 下 相等 当 随 机 变量 X 的 函数 是 一 
个 常数 乘 以 X 时 。 在 这 种 情况 下 ， 通 过 简单 的 代数 运算 就 可 以 证 明 这 两 个 值 相等 : 
f(X) =axX 
Epw{f(X)} = DyazP(z) 


= SzP(z) 


= a ps) {X} 
f (Ep {X}) 
另 一 个 重要 的 情况 是 ， 当 函数 仅仅 是 一 个 常数 时 。 这 时 ， 因 为 概率 分 布 对 所 有 可 能 的 结果 求 
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和 必须 为 1， 所 以 期 望 值 不 再 存在 。 
f(X) = 


a 
Epw{f(X)} = DJaP (x) 


三 a >)PCz) 


一 以 
最 后 一 种 特殊 情况 是 ， 函 数 和 的 期 望 值 等 于 每 个 函数 期 望 值 的 和 ， 这 将 非常 有 用 : 
Ep {f(X) + g(X)} 一 >)(CFGz) 十 gCz))PCz) 
= >F(z)PCz) 十 Dg Cz)P(z) 


= Ep {f(X)} + Ep {(g(X))} 
我 们 会 磁 到 的 两 种 最 常见 的 期 望 是 均值 (上 面 定义 的 Ep {X} ) 和 方差 。 方 差 度量 随 


[51] 机 变量 如 何 变化 ， 定 义 为 实际 值 与 期 望 值 之 差 平 方 的 期 望 值 : 


‘var{X} 一 Ep {(X 一 五 pc od Dl 0 
展开 括号 里 的 项 ， 得 出 随机 变量 方差 的 方便 表达 式 : 
var{X} = Epcs {((X— Er (x})’} 
= Ep {X? — 2XEp., {X} 十 五 pc 《2 和 
= Ep {(X? = 2 五 p(z) {X} Ep {X} 二 Eps) {X) 
从 第 二 行 到 第 三 行 ， 我 们 使 用 了 Ep {Ep {fC(X)}} = 五 pz {fCX)} o 五 pz {fCX)} 的 值 是 一 
个 常数 (通过 求 期 望 值 消除 了 所 有 包含 X 的 项 )， 外 层 的 期 望 是 一 个 常数 的 期 望 值 ， 我 们 前 
面 已 经 说 明 ， 常 数 的 期 望 值 等 于 这 个 常数 。 将 Ep {X}” 的 项 合并 ， 我 们 得 到 
var(X) 二 Epo (XK) Pe (XY 4 
一 般 来 说 ， 方差 大 的 随机 变量 的 值 比方 差 小 的 随机 变量 的 值 离 均值 更 远 。 


注解 2.2 (向 量 随 机 变量 ): 经 常 需要 定义 向 量 的 概率 分 布 。 这 只 不 过 是 定义 一 个 大 的 联 
合 分 布 的 快捷 方式 。 例如， 随机 变量 Xi ，X ，…，Xw 的 取 值 可 以 使 用 向 量 x = [zi， 
zz ,ZN 表示 。 使 用 这 种 快捷 方式 : 
p(x) = plzi,x2 ZN) 一 了 (XI = xi; X, = xs, XN = rN) 
虽然 x 是 向 量 , 但 p(x) 是 标量 ， 就 像 PCXi = zi ,Xs = zi,… ,XN 一 ZN) 一 样 。 














向 量 随 机 变量 的 期 望 值 以 完全 相同 的 方式 计算 ( 见 注 解 2.2)。 对 一 个 取向 量 值 x 的 随 
机 变量 X， 其 期 望 值 定义 如 下 : 
Epw (f(x)} 一 Df Px) 
其 中 求 和 符号 表示 对 向 量 x 的 所 有 可 能 值 求 和 。 因 此 ， 均 值 向 量 定义 如 下 : 
Epw {x} = DxP(x) 
处 理 向 量 的 时 候 ， 方差 的 概念 扩展 为 协 方差 和 矩阵， 定义 为 : 
cov{x} = Epw {(x — Epw {x})(x— Ep (x})'} (2-15) 


如 果 x 是 一 个 D 维 的 向 量 ,， 那么 cov(x) 是 一 个 DXD 维 的 矩阵 。 对 角 线 上 的 元 素 对 应 着 x 
每 个 元 素 的 方差 ， 对 角 线 外 的 元 素 表示 不 同 元 素 在 多 大 程度 上 与 x 一 起 变化 ， 即 它们 对 于 男 
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外 元 素 的 依赖 程度 如 何 。 例 如 ， 元 素 zx 和 Ze 对 应 一 个 大 的 正 值 ， 意 味 着 如 果 zs 增加 则 z。 
也 增加 。 如 果 是 一 个 大 的 负 值 ， 那 么 意味 着 它们 是 相关 的 , 但 是 向 相反 方向 移动 (zs 增加 
则 z, 减 小 )。 如 果 是 0 值 或 者 接近 0 值 ， 意 味 着 这 两 个 元 素 没 有 关系 (它们 相互 独立 )。 我 
们 在 2. 5. 4 节 给 出 关于 协 方差 矩阵 和 相关 密度 的 例子 。 与 方差 一 样 ， 协 方差 表达 式 可 以 用 如 
下 更 方便 的 形式 表示 : 
cov{x} = Ep {((x— Ep {x}) (x— Ep (xz))TI) 
= Ep (xx — 2xEpow {Xx} + Epcw {x} Epw {x} } 

重新 整理 这 个 表达 式 : 


cov{x} = Ep (xx.} — Bps) {x} Ep {Xx} €2-1063 


2.3 常见 的 离散 分 布 


目前 为 止 ， 在 我 们 使 用 的 所 有 例子 中 ， 我 们 能 列 出 每 一 个 随机 变量 的 所 有 可 能 的 结果 。 
出 于 解释 的 目的 这 是 有 用 的 ,但 是 随 着 可 能 结果 数量 的 增加 ， 列 出 所 有 可 能 的 结果 就 不 太 可 
能 了 。 在 现实 中 ， 我 们 常常 要 处 理 许多 著名 的 分 布 族 。 每 一 类 分 布 适用 于 特定 类 型 的 事件 ， 
通常 ， 这 些 分 布 使 用 参数 来 调节 它们 的 特征 。 本 节 将 介绍 常见 的 并 且 很 可 能 在 机 器 学 习 中 遇 
到 的 离散 分 布 。 


2.3.1 伯 努 利 分 布 


在 介绍 伯 努 利 〈Bernoulli) 分 布 之 前 ,我 们 已 经 碰 到 过 它 多 次 了 。 它 用 于 像 抛 硬币 一 样 

的 具有 两 个 可 能 结果 的 事件 。 对 于 随机 变量 X， 可 以 取 值 为 0 或 1 (二 元 随机 变量 )， 将 其 
取 值 为 1 的 概率 记 为 9， 则 伯 努 利 分 布 可 以 如 下 表示 : 

0 (2-17) 


伯 努 利 分 布 是 当 N=1 时 二 项 分 布 ( 见 2. 3.2 节 ) 的 特例 。 


2. 3.2 二 项 分 布 


二 项 分 布 式 扩展 了 伯 努 利 分 布 用 于 定义 N 次 试验 中 观察 到 的 一 定数 目 正面 的 概率 。 更 
一 般 地 ， 我 们 可 以 将 它 用 于 任何 有 两 个 结果 成功、 失败 ) 的 事件 上 。 如 果 有 N 个 这 类 事 
件 ， 那 么 二 项 随机 变量 并 可 以 取 从 0 〈 没 有 一 次 成 功 ) 一 N (CN 次 都 成 功 ) 的 任意 值 。 观 察 
到 一 定数 目 成 功 事件 的 概率 由 下 式 给 出 : 





N 
PC y= Py = ( rp (2-18) 
A 


表达 式 的 第 二 部 分 看 起 来 与 伯 努 利 分 布 表 达 式 非常 像 。 事 实 上 ， 如 果 我 们 定义 N 个 二 元 结 
果 为 Xz1， 对 那么 二 项 分 布 表达 式 的 第 二 部 分 是 N 个 二 项 概率 的 乘积 : 


Te Ga 一 om = 3 — "> 
= 
其 中 y = 二 >)z, 是 成 功 的 次 数 ( 成 功 对 应 z, 二 1) 。 二 项 表达 式 的 第 一 部 分 是 必需 的 ， 因 为 假 
设 y= 二 3， 那 么 有 和 多 个 z1，x;，…，zw 的 可 能 组 合 与 之 对 应 , q* (1 一 g)* ?只 是 表示 了 多 可 能 


中 的 一 个 。 计 算 所 有 可 能 结果 的 总 和 等 于 乘 以 这 些 组 合 的 数目 ， 已 知 组 合 数 函数 ( 、) ( 读 作 
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从 NN 中选 y， 详 见 注解 2.3)。 图 2-3 显示 了 当 N 一 50、g 王 0.7 时 的 分 布 函数 。 
注解 2.3 (组 合 ): 从 NN 中 选 y， 记 作 





(») 


是 从 NN 个 对 象 中 选 出 y 个 不 同 对 象 的 方法 数 的 数学 表示 法 。 例 如 : ( ) 等 于 4 一 一 从 4 个 对 





4 
象 中 选 出 一 个 的 方法 有 4 种 (选择 1 号 对 象 、 选 择 2 号 、 选 择 3 号 、 选 择 4 号 )。 (2) 等 于 


可 能 的 选择 是 1 和 2、1 和 3、1 和 4、2 和 3、2 和 4、3 和 4。 一般 地 ， 我们 有 
N、_ N! 
(of 


6 





其 中 N! ( 读 作 NN 的 阶乘 ) 是 


[Ii=Nx(N—DXx((N—2)xX.…x1 














2. 3.3 多 项 分 布 


我 们 前 面 的 两 个 例子 是 标量 随机 变量 的 分 
布 ， 现 在 我 们 看 看 这 样 一 个 分 布 一 一 这 个 分 布 | 
将 概率 分 配给 离散 变量 的 向 量 。 基 本 思想 是 完 去 
全 相同 的 一 一 分 布 函数 对 每 一 个 可 能 的 向 量 分 “ 
配 概率 值 ， 这 些 概 率 的 和 必须 为 1。 作 为 向 量 
随机 变量 的 动机 ， 假 设 你 创建 一 个 包含 N 个 
词 的 随机 文本 生成 器 ， 并 且 你 想 要 在 这 些 随机 RE 
文本 上 定义 一 个 概率 分 布 。 这 并 不 像 听 起 来 那 0 和 2030 40 50 
样 恩 窟 机 束 学 习 技 术 常常 用 来 以 这 种 方式 图 2-3 二 项 随机 变量 概率 分 布 函数 的 示例 ， 
定义 文本 上 的 概率 分 布 来 分 析 文 本 。 使 用 词 数 N=50、g==0.7 ( 式 (2-8)) 

的 向 量 是 表示 文本 的 一 种 方式 。 假 设 字典 里 J 个 可 能 的 词 ， 那 么 这 个 向 量 的 长 度 为 J， 第 j 
个 元 素 保 存 字 典 中 第 7 个 词 在 文本 中 出 现 的 次 数 。 多 项 分 布 允许 我 们 定义 一 个 在 这 样 的 向 量 
上 的 分 布 。 设 了 是 一 个 表示 文本 的 随机 变量 。 一 个 词 数 的 向 量 y 二 [y,，… ,yj]" 是 随机 变量 
的 一 个 实例 ， 多 项 分 布 定义 y 的 分 布 如 下 : 




















PY—pD—Py— . (2-19) 





J1y,! ji 


才 


其 中 g; 是 多 项 式 分 布 的 参数 ， 表示 第 j 个 词 的 概率 ( 2 一 工 ): 


2.4 连续 型 随机 变量 一 一 概率 密度 函数 


在 本 章 的 开始 部 分 我 们 看 到 ， 不 能 系统 地 写 下 连续 随机 变量 所 有 可 能 的 结果 。 不 幸 的 是 ， 这 
也 妨碍 我 们 对 特定 值 分 配 概 率 。 为 了 解决 这 个 问题 ， 我 们 使 用 结果 落 入 某 个 区 间或 者 间隔 的 概 
率 。 例 如 ， 已 知 一 个 连续 随机 变量 X 可 以 取 负 无 穷 大 到 正 无 穷 大 之 间 的 任意 值 ， 尝 试 计算 出 
Pw SR EA Lo) 
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是 很 有 意义 的 工作 ， 而 不 是 计算 
PCX 三 工 ) 

当 使 用 连续 随机 变量 时 ， 我 们 需要 概率 分 布 的 连续 模拟 〈 前 面 讲 过 ， 对 离散 随机 变量 ， 
概率 分 布 是 一 组 结果 (x) 和 每 个 结果 的 概率 ， 表 示 成 x, p(x) 的 函数 ) 。 这 由 概率 密度 函数 
(pdf) 表示 ， 也 记 为 p(x) 。 为 了 计算 X 落 入 某 一 特定 区 间 的 概率 ， 我 们 计算 p(x) 关于 工 
在 这 个 区 间 上 的 定 积分 ( 见 注解 2. 4) : : 


pea 二 | DEY A 
如 果 随 机 变量 只 是 可 能 在 区 间 zi 三 X 志 x; 上 取 值 ， 那 么 X 落 入 这 个 区 间 的 概率 一 定 是 
1。 这 引导 我 们 得 到 式 (2-2) 针对 连续 随机 变量 的 等 价 变形 : 
ca < (2-20) 
式 (2-1) 也 有 一 个 连续 随机 变量 的 等 价 形式 : 
pz) 三 0 (021) 


它 表 明 概 率 密度 函数 不 能 为 负 。 值 得 注意 的 是 ， 概 率 密 度 函 数 没 有 上 界 ， 因 为 概率 密度 函数 
不 是 概率 ， 所 以 对 特定 的 工 其 取 值 可 以 〈 常 常 是 ) 比 1 大 。 


注解 2. 4 ( 定 积 分 ) : 当 对 含有 常数 项 的 函数 微分 时 ， 常 数 项 就 消失 了 ， 例 如 ， 
EC 十 3) 二 27 


因此 ， 当 我 们 对 一 个 函数 积分 时 ， 必 须 承认 这 个 函数 有 可 
能 含有 常数 项 








|2zdz 十 下 到 
这 就 是 所 谓 的 不 定 积分 ， 因 为 我 们 不 知道 C 的 值 。 
我 们 常常 对 使 用 积分 求解 曲线 下 的 面积 感 兴趣 。 例 如 ， 
这 个 例子 中 我 们 想 要 计算 y= 二 2z 在 x 二 2 和 z= 二 3 之 间 的 面 
积 ， 如 右 图 所 示 。 此 面积 依照 下 式 计 算 : 
| 2zdz = [z+C} 
其 中 [上 表示 括号 中 对 象 的 取 值 范围 为 x 二 a 到 xz 二 6。 这 个 例子 中 ， 它 表示 
(3? 十 C) 一 (2: 十 C) = 9 一 4 十 C 一 C=5 
这 是 定 积分 一 一 消除 了 常数 ， 并 且 结 果 是 精确 的 。 
联合 概率 密度 和 条 件 连 续 概率 密度 : 与 离散 情况 一 样 ， 我 们 可 以 定义 多 个 连续 随机 变量 
的 联合 概率 密度 函数 。 例 如 , p(zx,y) 是 连续 随机 变量 X 和 Y 的 联合 概率 密度 , p(w ) 是 向 量 


z 的 概率 密度 函数 ， 向 量 w 的 每 个 元 素 都 是 随机 变量 , p(w ) 可 以 认为 是 p(wo ,wi ，…) 的 联 
合 概 率 密度 函数 。 尽 管 我 们 不 能 计算 P(X = x,Y 二 y)， 但 是 我 们 可 以 计算 


P(rzi Xr YZ y) = 四 i plzx,y)drdy 


同样 可 用 于 条 件 分布 ， 即 使 条 件 制约 是 一 个 确切 值 (同样 ,我 们 假设 这 个 事件 已 经 发 
生 )。 例 如 ,我 们 可 能 会 计算 


Pin SxSnlY=» = |. ptrlY = ydz 


y 


OO DW No% 




















= 


[7] 
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我 们 常常 使 用 简写 p(x|y) 来 描述 已 知 Y= 一 > 时 ，X 的 概率 密度 函数 。 
边缘 化 : 你 可 能 已 经 在 假定 连续 对 随机 变量 进行 边缘 化 ,我们 用 积分 替代 离散 随机 变量 
的 和 。 人 例如， 概率 密度 函数 p(y) 可 以 从 p(y,x) 计算 出 来 : 


py) = | pvz)dz 


其 中 Zi 妇 X 雪 Za 表示 X 的 样本 空间 。 
期 望 值 : 连续 随机 变量 的 期 望 值 通过 计算 随机 变量 取 值 范围 的 积分 来 完成 。 


Eee) - | Ad (2-22) 


2. 28 节 中 所 有 推导 出 的 表达 式 在 连续 情形 下 是 完全 相同 的 。 
在 某 些 实际 情况 中 ,我们 可 能 不 能 计算 这 个 积分 一 一 我 们 不 知道 p(x) 的 确切 形式 ， 或 
者 它 仅 仅 无 法 积分 。 然 而 ， 如 果 我 们 能 够 对 p(x) 进行 采样 ， 那 么 可 以 通过 下 式 近 似 得 到 : 


Ss 
Ef fz) (2-23) 
s=] 


其 中 z, 是 从 p(x) 采样 得 到 的 S 个 样本 。 这 是 蒙特 卡 罗 (Monte Carlo) 近似 的 一 个 例子 ， 
此 法 在 随后 章节 中 我 们 会 进一步 讨论 。 


2.5 常见 的 连续 概率 密度 函数 
与 离散 情形 一 样 ， 我 们 时 常会 磁 到 多 类 常见 的 连续 概率 密度 函数 。 本 节 中 ， 我 们 介绍 其 
中 的 3 种 。 


2. 5.1 均匀 密度 函数 


最 简单 的 连续 密度 也 数 是 均匀 密度 函数 。 均 匀 密 度 函 数 p(y) = U(a,b) ， 在 ac 一 0 是 常 
数 ， 其 他 为 0。 
BW = 上 i (2-24) 
0 其 他 
图 2-4 是 a 二 3、6b 二 8 时 的 示例 。 根 据 概率 密度 六 
函数 在 样本 空间 上 的 积分 等 于 1 的 定义 ， 对 于 任意 025 
的 a、5， 我 们 能 够 计算 出 7r 值 。 这 种 情况 下 ， 


6 6 
民生 区 雪 中 -1=| p(wdy=| rdy 


y=a 














=[y]l=w—ra=r(6—a) 
1 


b—a 0 
这 是 非常 直观 的 (7 是 全 概率 1 除 以 区 间 长 度 )， 因 “ 0 


为 随机 变量 必须 在 (5 一 a) 内 。 我 们 也 可 以 很 容易 图 2-4 均匀 概率 密度 函数 的 示例 
地 定义 多 维 均匀 分 布 随机 变量 。 例 如 ， 如 果 y 了 = [yi ,y 本， 

r a<y<bHc<y <d 

0 其 他 














Dy = 
并 且 可 以 以 类 似 的 方式 计算 > 值 ， 
« b d 
Pan ShoD=1=| | randy 
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b b 
=| [Lrys J dy = rl(d— oc) dy 


= [rt(d—o)y] = rAd—ce) (bm—a) 
本 1 
(a = eB = w) 
而 且 ， 这 也 是 直观 的 ,，r 是 全 概率 1 除 以 区 间 的 面积 ， 随 机 变量 必须 落 入 面积 (d 一 c) (一 a) 内 。 
顺便 说 ， 式 (2-23) 说 明了 如 何 通过 对 适当 的 分 布 进行 采样 〈 随 机 变量 的 实现 ) 来 估计 
期 望 。 我 们 将 通过 采样 和 解析 计算 y 的 期 望 值 来 说 明 这 个 方法 。 解 析 解 由 下 式 给 出 : 


本 人 
Ew (y’} = ply)dy = | dy 


) 
y= OO— a 





r 








> y b ee 
re 3(b— a) 
代入 a 二 0、6b 王 1， 得 : 


Ee {yy} 去 


为 了 计算 基于 采样 的 近似 值 ， 需 要 从 M(0，1) 得 到 样本 。 在 Matlab 中 ， 命 令 rand 能 
够 从 这 个 分 布 中 生成 样本 。 如 果 生 成 S 个 样本 >,， 我 们 能 够 按 下 式 估 计 期 望 值 : 


Ey {(y} 三 oy (2-25) 


2-5 表明 ， 当 采样 数量 从 1 增加 10' 时 ， 近 似 值 改善 的 程度 。 真 实 值 1/3 用 虚线 表示 
(MATLAB 脚本 : approx expected value.m)。 只 有 在 100 个 样本 后 ， 近 似 值 是 相当 不 
错 的 。 使 用 采样 得 到 近似 期 望 值 将 会 在 后 面 的 章节 广泛 使 用 ( 见 练习 EX 2. 4) 。 


2.5.2 密度 函数 
8 密度 函数 可 以 用 于 0~1 之 间 的 连续 随机 变量 。8 密度 函数 定义 如 下 : 
a Dat 8) a] a 1 Ww 
plr) OT QQd—r)r (2-26) 


其 中 a、B 是 控制 概率 密度 函数 形状 的 参数 ， 两 者 都 必须 为 正 值 。 T(z) 是 伽 马 函数 ， 此 处 我 
们 不 做 讨论 ， 因 为 在 MATLAB 中 我 们 可 以 使 用 内 置 函 数 y 得 到。 图 2-6 展示 了 不 同 参数 下 
的 8 概率 密度 函数 。 我 们 在 第 3 章 中 大 量 使 用 8 概率 密 度 函 数 ， 那 时 再 进行 更 多 的 讨论 。 






































035 一 一 一 一 一 一 一 一 一 一 一 一 
03. 8 
7 
0.25 上 
6 
0.2 上 a 
到 0.15 ] 全 
过 有 
0.1 3 
0.05| 2 
0 一 ~ | ， 
10° 10! 10? 103 104 0 ， 
采样 数量 0 02 04 ~ 0.6 0.8 1 
图 2-5 已 知 式 (2-25)， 其 中 p(y) 一 W(0,1)， 图 2-6 具有 3 对 不 同 参数 的 8 概率 密 
增加 采样 数量 对 估计 期 望 的 影响 。 虚 线 度 函 数 的 示例 


是 真实 值 (1/3)。 注 意 工 轴 按 对 数 缩小 
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2.5.3 高 斯 密度 函数 


高 斯 随机 变量 在 许多 连续 应 用 中 使 用 。 在 某 些 有 用 的 情况 下 ， 高 斯 概率 密度 函数 非常 容易 
操控 。 高 斯 分 布 定义 在 实数 域 上 上 〈 即 一 ce 一 十 ce)。 随 机 变量 Y 的 高 斯 概率 密度 函数 定义 为 : 





1 1 
《ywsa ) = : (yp (2-27) 
0 


它 由 两 个 参数 确定 一 一 均值 (yy) 和 方差 (go )。 图 2-7 展示 了 不 同 参 数 uy、o 的 高 斯 密度 函 
数 。 当 yy 一“ 时， 概率 密度 函数 取 最 大 值 ， 并 且 概 15 
率 密度 函数 关于 此 点 对 称 。 概 率 密 度 函 数 的 宽度 /=-2, 0=0.1 
由 参数 控制 ， 值 越 大 ， 密 度 越 宽 。 如 果 我 们 使 
用 图 2-7 最 左边 的 高 斯 概率 密度 函数 来 生成 随机 变 I 
量 的 实例 ， 那 么 我 们 只 能 期 望 得 到 一 2 附近 小 范围 全 
的 值 。 对 于 最 右 侧 的 高 斯 概率 密度 函数 ， 我 们 将 “ 
获得 5 周围 较 大 范围 的 值 。 高 斯 概率 密度 函数 常 

用 的 速记 法 N (和 ) 表示 。 因 此 ， 如 果 Y 服从 

高 斯 概率 密度 函数 ， 那 么 我 们 可 以 记 作 : 0 


， -5 0 10 
al ehle ) ea » 





=0, a=0.3 























志 关 站 情 斯 和 正 态 通 常 是 可 交换 的 )。 


2.5.4 多 元 高 斯 


高 斯 分 布 也 可 以 用 于 定义 连续 向 量 的 概率 密度 函数 。 向 量 x 二 [xi ，,…,xpj] 的 多 元 高 斯 
概率 密度 函数 在 后 续 章 节 中 有 大 量 的 应 用 。 其 概率 密度 函数 定义 为 : 





， 
Na Te > (tH) 三 zx 一 中 | (2.28) 
其 中 天 是 向 量 (大 小 与 x 相同 ), 第 4 个 元 素 表示 向 量 第 个 元 素 对 应 的 均值 。 方 差 变 为 一 
个 DXD 的 协 方差 矩阵 。 一 个 图 形 化 的 例子 或 许 是 最 好 的 方式 来 感觉 参数 4 和 克 对 概率 密 
度 函 数 的 影响 。 第 一 个 例子 在 图 2-8 的 第 一 行 。 这 个 例子 中 ， 两 个 参数 分 别 是 : 
ee 

4= [2,1] ,区 = |。 | 
这 是 多 元 高 斯 只 有 两 个 变量 (zy 和 x;) 且 zi、xzs 相互 独立 的 特例 。 我 们 注意 到 协 方差 矩阵 
马 是 单位 和 矩阵 瑟 二 TI。 所 以 ， 





J 1 要 
px) CF jrreexp( (x wu) I ‘Gp)) 


由 于 , "二 TT ( 见 注 解 1. 10) 允许 我 们 通过 这 个 表达 式 获得 单元 高 斯 密度 函数 的 乘积 。 
从 上 述 表 达 式 开始 〈 已 经 将 三 "替换 为 站 ， 我 们 可 以 将 指数 内 的 矩阵 积 变 成 D 个 不 同 元 素 的 
和 ( 见 练习 下 X 2. 5) :: 





1 1 、 
p(x) = [7 [Texp{ (x WI —p)) 





1 le ， 
i (C2r) 0 [了 | mexp| 2 2 (zs 一 wo 
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Xa -2 -2 Xl 萄 
C) d) 


图 2-8 两 种 不 同 二 元 高 斯 概率 密度 函数 的 表面 图 ( 左 ) 和 等 概率 线 图 〈 右 ) 





注解 2. 5 (和 矩阵 的 行列 式 ) : 方 阵 的 行列 式 记 为 |A4|， 对 于 和 矩阵 A， 它 是 一 个 很 有 用 的 量 ， 
特别 是 在 处 理 多 元 高 斯 概率 密度 也 数 时 。 对 于 大 矩阵， 手动 处 理 行列 式 太 麻烦 了 ,但 是 
对 于 小 和 矩阵 可 以 这 么 做 。 例 如 ， 对 于 一 个 2X2 的 矩阵 
&=| 2]' 14l= ad —& 
但 是 对 于 任何 比 这 个 矩阵 大 的 和 矩阵， 最 安全 的 是 使 用 计算 机 来 处 理 ， 除 非 这 是 一 个 特殊 
结构 的 和 矩阵。 我 们 经 常 看 到 的 一 个 特殊 的 矩阵 是 只 有 对 角 线 元 素 的 方 阵 〈 对 角 线 以 外 的 
所 有 元 素 都 为 0) 。 这 时 ， 这 个 矩阵 的 行列 式 仅 仅 是 这 些 元 素 的 乘积 。 
例如 ， 


bs i 0 D 
六 三 i a 可 14|= [| aw 
。 ® 2 。 d= 
0 0 ”” app 


要 获得 行列 式 表示 什么 的 直观 感受 并 不 容易 。 它 在 多 元 高 斯 归 一 化 常数 中 的 作用 与 
高 斯 非 归 一 化 的 体积 相关 “〈 归 一 化 体积 必须 等 于 1)， 这 是 非常 有 用 的 。 


由 于 和 的 指数 等 于 指数 的 乘积 ， 所 以 可 以 将 上 述 表 达 式 改写 为 : 
_ 1 了 i 
corm ll exp| 一 | 
其 中 ，| 刀 是 矩阵 工 的 行列 式 。 从 注解 2.5 关于 对 角 和 矩阵 的 讨论 中 可 以 知道 | 芽 三 1。 另 一 个 
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常数 项 〈2r)2?: ， 可 以 记 为 [] (2z) ， 所 以 表达 式 可 以 改写 为 : 


: 1 ] 2 
plx) I] wae*pl 3 ms] 


乘积 中 的 每 一 项 是 一 个 单元 高 斯 分 布 (均值 是 ws， 方差 是 1)， 因 此 依据 独立 性 定义 ， 癌 量 
x 的 每 个 元 素 相 互 独 立 。 这 个 结论 不 仅仅 适用 于 允 二 I， 它 还 适用 于 协 方差 矩阵 任意 的 对 角 
线 元 素 不 为 零 的 时 候 。 这 些 对 角 线 元 素 是 每 个 单元 高 斯 概率 密度 函数 的 方差 ( 见 练习 EX 
2. 5、EX 2. 6 作为 这 种 类 型 的 高 斯 概率 密度 函数 处 理 的 进一步 练习 ) 。 
图 2-8 的 第 二 行 是 第 二 个 例子 ， 其 参数 是 : 
,a rl 0.8 
x = L211, = 再 | 
这 个 例子 中 ,我们 不 能 把 概率 密度 函数 写成 单元 高 斯 概率 密度 函数 的 乘积 ， 这 意味 着 向 量 x 的 
每 个 元 素 不 是 相互 独立 的 。 在 等 概率 线 图 中 也 能 看 出 它们 之 间 的 相关 性 〈 见 图 2-8 右 下 角 )。 
如 果 mm 、xzs 是 独立 的 ， 那 么 p(x; | zi ) 不 会 随 着 zx 的 不 同 而 变化 。 假 想 zi 二 3， 从 图 2-8 中 可 
以 看 出 ， 当 zi 二 3 时 ，zs 的 值 聚 集 在 2 周围 。 如 果 zi 二 1， 那 么 zx; 的 值 聚集 在 0 周围 。 明 显 
地 ， 在 两 种 情况 下 ， 期 望 x; 的 值 不 同 ， 直 观 地 ，xzi; 、zs 是 相关 的 。 (MATLAB 脚本 : gauss_ 
surf.m)。 使 用 协 方差 矩阵 中 的 值 进行 实验 可 以 看 出 ， 对 表面 图 和 等 概率 线 图 的 影响 。 
一 个 多 元 高 斯 很 好 的 特征 是 它 的 条 件 概 率 密 度 函 数 p(xs |xz1) 是 男 一 个 很 容易 得 到 其 均 
值 和 方差 的 高 斯 概率 密度 函数 。 虽 然 此 处 我 们 忽略 了 细节 ， 但 是 这 是 我 们 经 常 使 用 的 。 








2.5.5 小 结 


至 此 ,我 们 完成 了 对 随机 变量 及 其 概率 的 简单 介绍 。 虽 然 我 们 仅仅 浏览 了 这 个 巨大 主题 的 
表面 内 容 , 但 是 在 前 面 章节 介绍 的 内 容 足 以 使 我 们 将 模型 扩展 到 显 式 地 度量 预测 和 测量 之 间 的 
差异 。 在 本 章 的 剩余 章节 中 ， 我 们 将 在 模型 中 引入 一 个 新 的 随机 变量 来 对 线性 模型 和 数据 之 间 
的 误差 建 模 。 假 设 随机 变量 服从 高 斯 密度 ， 对 w (最 优 参 数值 ) 而 言 ， 我 们 将 以 与 第 1 章 中 完 
全 一 样 的 方程 结束 。 然 而 ， 噪 声 项 的 引入 将 允许 我 们 获得 参数 值 和 预测 的 置信 程度 。 


2.6 产生 式 的 考虑 ( 续 ) 


现在 ， 我 们 有 足够 关于 随机 变量 的 背景 知识 来 控制 线性 模型 的 误差 (如 图 2-1 所 示 )。 
在 2.1.1 节 ， 我们 开始 思考 如 何 生成 与 我 们 观察 到 的 数据 相 类 似 的 数据 。 尤 其 是 我 们 考虑 通 
过 形 如 w “x 的 公式 产生 第 n 次 获胜 的 时 间 ， 然 后 加 上 一 个 随机 变量 e 一 a。 

现在 ， 我 们 的 模型 采用 下 列 形式 : 


bw Ks 6. (2-29) 
为 了 完整 定义 这 个 模型 ， 我 们 需要 确定 s 的 分 布 。 首 先 ， 应 当 清楚 模型 与 实际 获胜 时 间 之 
间 的 差 是 一 个 连续 变量 。 因 此 , 6, 是 一 个 连续 随机 变量 。 我 们 的 确 不 只 有 一 个 随机 变量 ， 但 是 
对 于 每 一 年 奥运 会 比赛 的 观测 却 只 有 一 个 。 这 似乎 可 以 合理 地 假设 ， 这 些 值 是 独立 的 : 
力 (si 入 ,EN) > T[ pe.) 


最 后 的 假设 是 ple,) 的 形式 。 我们 假设 这 是 一 个 高 斯 (或 正 态 ) 分 布 ， 其 均值 为 0、 方 
差 为 o 。 我 们 不 会 做 出 很 多 努力 来 证 明 这 一 假设 ,这 里 只 是 允许 6 的 取 值 正 、 负 均 可 (使 
得 数据 可 以 分 布 于 直线 wx 的 上 下 ) 并 且 具 有 与 第 1 章 用 到 的 平方 损失 (squared loss) 相 
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关 的 有 趣 的 模型 属性 。 正 如 在 1.1. 3 节 讨 论 的 关于 损失 函数 的 选择 问题 ， 在 真实 的 模型 中 这 
个 选择 需要 仔细 地 经 过 适当 的 验证 。 

使 用 均值 (jy) 为 0, a? 二 0.05 (这 里 先 不 用 担心 这 个 特殊 值 ) 的 正 态 密度 的 es， 即 
ple) 一 NGC) (参见 2. 5.3 节 )， 得 到 一 个 更 加 1 ， | 
守 合 实际 的 数据 集 ， 详 见 图 2-9 (MATLAB 脚 
本 : genolymp.m)。 10.5 上 . 

我 们 的 模型 现在 由 两 部 分 组 成 : 

1) 决定 性 的 组 分 部 分 (w 'x, )， 有 时 候 是 
指 一 种 趋势 或 倾向 。 

2) 随机 组 分 部 分 (6, )， 有 时 候 是 指 品 声 。 

我 们 已 经 指出 ， 我 们 并 非 限 定 噪 声 为 高 斯 分 
布 ， 我 们 同样 也 不 限定 为 可 加 性 噪声 。 在 某 些 应 用 ?30190190 1980 2000 
中 ， 可 乘 性 可 能 更 加 恰当 (此 时 , 1 = f(x;w)e )。 四 
例如 ， 图 像 像素 的 退化 常常 建 模 为 一 个 具有 可 乘 图 2-9 由 高 斯 误差 的 线性 模型 生成 的 数据 集 
性 噪声 的 模型 。 然 而 ， 正 如 我 们 在 2.7 节 将 看 到 的 那样 ， 选 择 可 加 性 高 斯 噪声 使 我 们 能 够 获 
得 最 优 参数 也 的 精确 表达 模式 。 


2.7 似 然 估计 

我 们 的 模型 如 下 所 示 : 

ts = fxsWw) He ee ~ NMN(00) 

如 第 1 章 所 述 ， 需 要 找到 w 的 最 优 值 多 。 我 们 还 有 一 个 可 加 性 参数 0 需要 设置 。 在 第 1 
章 中 ,我 们 找到 了 损失 最 少 的 w 值 。 该 损失 描述 观测 值 : 与 模型 预测 值 之 间 的 差距 。 给 模型 
增加 一 个 随机 变量 的 作用 是 使 模型 的 输出 t 自身 也 是 一 个 随机 变量 。 换 句 话 中 ， 对 于 一 个 特 
殊 的 x,，t, 的 值 不 止 一 个 。 因 此 ， 我 们 不 能 用 损失 作为 优化 w 和 o” 的 均值 。 

给 高 斯 随机 变量 添加 一 个 常量 (zz ) 等 同 于 具有 相同 常量 转换 来 的 均值 的 另 一 个 高 
斯 随机 变量 : 








获胜 时 间 (s) 








J 二 a 
pz)=N(m,s) 
p(y) =N(m+ta,s) 
因此 ， 随 机 变量 t, 具有 如 下 的 密度 孔 数 : 2 
plts xs sw 10) = Nw Tx, ,0 ) 
注意 左边 的 条 件 i, 的 密度 依赖 于 特定 的 x, 和 
w (它们 决定 均值 ) 以 及 oo (方差) 的 值 。 
为 了 说 明 我 们 如 何 找 到 w 和 o? 的 最 优 值 ， 考 
虑 数据 集中 一 个 年 份 一 一 1980。 基 于 第 1 章 的 模 
型 (wo ,ww1) ， 且 再 次 假设 o = 0.05 ， 我 们 就 可 
以 画 出 p(z, |x, 二 1980,w ,oo ) 关于 4 的 图 像 ， 如 
图 2-10 所 示 。 其 中 实 线 表明 : 
pli, |x, 一 [1,1980]， 
w = [36. 416, — 0. 0133]7 ,og* = 0. 05) 图 2-10 1980 年 的 似 然 函 数 
它 是 均值 y 二 36. 416 一 0.0133X1980 = 二 10. 02 和 方差 二 0.05 的 高 斯 密度 。 需 要 记 住 的 是 ， 
连续 随机 变量 :、p(z) 不 能 解释 为 概率 。 曲 线 在 特定 i 值 下 的 高 度 可 以 解释 为 在 zx 二 1980 时 








plitlx) 














48 


第 2 章 线性 建 模 : 最 大 似 然 方 法 


观察 到 这 个 特定 上 的 可 能 性 。1980 年 最 可 能 的 获胜 时 间 是 10. 02 秒 〈 对 于 高 斯 分 布 ， 最 可 能 
的 (最 高 点 代表 均值 )。 图 中 显示 了 3 个 时 间 的 例子 一 一 A、B 和 C。 其 中 ，B 是 最 可 能 
的 ，C 是 最 不 可 能 的 。 

1980 年 奥运 会 的 实际 获胜 时 间 是 C (10. 25 秒 )。 作 为 第 nn 年 数据 的 似 然 值 ， 在 4 = 
10. 25 时 估算 的 密度 p(w, |x,,w ,o”) 是 一 个 重要 值 。 我 们 不 能 改变 ti 二 10. 25 (因为 这 是 我 
们 的 数据 )， 但 是 我 们 可 以 通过 改变 ww 和 来 尝试 并 移动 密度 ， 使 其 在 i 二 10. 25 时 尽 可 能 
保持 高 的 可 能 性 。 这 种 通过 寻找 参数 以 最 大 化 似 然 值 的 方式 是 机 器 学 习 中 的 一 个 重要 观点 。 


2.7.1 数据 集 的 似 然 值 


一 般 来 说 ， 我 们 感 兴趣 的 并 非 是 单个 数据 点 的 似 然 值 ， 而 是 整个 数据 集 所 有 点 的 似 然 
值 。 如 果 有 NN 个 数据 点 ， 我 们 感 兴趣 的 就 是 它们 的 联合 条 件 密度 : 

pltiy' ,ty | XXXN yy ,0 ) 

这 是 数据 集中 所 有 点 的 联合 密度 (参见 2. 2. 5 节 )。 我 们 将 利用 第 1 章 定 义 的 向 量 表示 
法 和 关 ， 将 其 改写 为 紧缩 形式 为 p(t|X,w ,oo ) 。 估 计 观 测 值 的 这 种 密度 ， 产 生 了 所 有 数据 
集 的 单个 似 然 值 ， 它 可 以 通过 改变 w 和 o? 来 进行 优化 。 

所 有 数据 点 的 噪声 是 独立 的 ( ple1,'"*,eN) = lace,) ) 这 一 假设 使 我 们 能 够 将 这 种 密 


度 分 解 为 更 易 操作 的 对 象 。 特 别 地 ， 这 一 联合 密度 可 以 分 解 为 N 个 独立 的 部 分 ， 每 一 部 分 
对 应 一 个 数据 对 象 ; 





, N N 
POX ) Tie, xu 0) IT Nt x,,0”) (2-30) 
六 Wm 





注意 ， 我 们 还 没有 说 t 自身 也 是 完全 独立 的 。 它 不 是 这 种 情况 平均 看 , t, 随时 间 增 
加 ， 表 明了 它们 之 间 清 晰 的 统计 依赖 性 。 如 果 它 们 完全 独立 ， 那 么 就 根本 不 值得 对 数据 进行 
建 模 。 事 实 上 ， 它 们 是 条 件 独立 的 一 一 对 于 给 定 的 ww 值 ( 模 型 的 决定 性 部 分 ), wt, 是 独立 的 ， 
没有 此 条 件 则 不 独立 。 如 果 这 听 起 来 有 点 奇怪 ,还 可 以 这 样 认 为 : 假设 我 们 搜集 所 有 奥运 会 
的 年 代 及 获胜 的 时 间 ， 除 了 中 间 的 某 一 年 一 一 如 1960 年 。 为 了 简便 起 见 ， 我 们 使 用 关 、i 代 
表 除 了 1960 年 外 所 有 奥运 会 的 年 代 和 获胜 时 间 。 如 果 我 们 试图 使 用 X 和 上 上 来 学 习 tsse ， 那 
么 我 们 感 兴趣 的 是 如 下 所 示 的 条 件 分 布 : 

人 
根据 条 件 分 布 的 定义 ， 可 以 给 出 如 下 等 式 : 


pCbgeo [和 ,下 ,四 一 pbrgoo vt |x we0 sR 


p(t|X) 
假设 参数 t 的 元 素 是 独立 的 ， 可 得 出 ts6o 仅 依赖 于 xioso : 
pltigeo | x160) [Tz (C6 | 


[Tle lx,) 


然而 ， 为 了 使 模型 适用 于 任何 应 用 , tis6o 在 某 种 程度 上 必须 依赖 于 其 他 数据 。 这 种 依赖 
性 包括 到 参数 w 中 。 模 型 的 决定 性 部 分 捕获 了 这 种 依赖 性 。 如 果 已 知 w ， 那 么 剩 下 的 就 是 
观测 数据 与 w xz, 之 间 的 差 值 。 假 设 误差 是 独立 的 ， 因 此 以 w 为 条 件 ， 观 测 值 也 是 独立 的 。 
没有 一 个 模型 ， 其 观测 值 不 是 独立 的 。 

接 下 来 ， 我们 将 说 明 如 何 找 到 w 和 o” 的 值 来 最 大 化 似 然 值 。 





ptigeo | xige6 ;六 ,1t) 一 





= p(tigeo [rssoy 
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2.7.2 最 大 似 然 


在 已 知 当前 模型 〈 即 选 定 的 ww 和 o ) 情况 下 ， 式 〈2-30) 给 出 了 一 个 数值 来 表示 数据 集 
的 相似 性 。 由 于 数据 集 是 固定 的 ， 所 以 不 断 变化 的 模型 将 产生 不 同 的 似 然 值 。 模 型 的 一 个 明 
智 选 择 旨 在 最 大 化 似 然 值 。 换 句 话 说， 我 们 将 选择 那些 能 够 使 观测 值 最 相似 的 模型 参数 值 。 

出 于 统计 的 原因 ， 我 们 将 最 大 化 似 然 值 的 自然 对 数值 〈 我 们 将 按照 机 器 学 习 的 惯例 ， 使 
用 log(y) 来 表示 y 的 自然 对 数 ， 而 其 他 地 方 常常 用 In(y) 表示 )。 我 这 样 做 ， 因 为 估计 的 参 


数 负 和 在 最 大 化 似 然 对 数 时 ， 同 样 最 大 化 了 似 然 值 。 
取代 高 斯 密度 函数 的 表示 形式 ( 式 (2-27)) 并 分 离 各 个 变量 ， 就 得 到 了 更 加 详细 的 表示 形式 : 


logL = Diog( exp| 人 fmw))’)) 





1 
V2xno” 
a 和 一 -= 人 ee | 
= Flog(2n) logo pp fr;w))’) 


= 一 六 os 2r— Nlogo— 3; DC — fr YY 
用 f(x,;w) 二 w x, 替换 模型 中 的 决定 性 部 分 ， 对 数 似 然 表 达 式 就 呈现 如 下 的 形式 : 





(2-31) 


至 于 第 1 章 得 到 的 最 小 二 乘 解 ， 通 过 求 导数 、 使 其 等 于 零 以 及 求解 拐点 的 方法 ， 能 够 找 
到 最 优 参数 ， 这 类 似 于 1. 1.4 节 所 述 的 方式 。 对 于 w (注意 , w "x 二 xxw )， 


9308 上 一 Dx — rw) 


log L 三 一 Ns 2x— Nlogo— EE 
有 2 有 2 


a 一 XXatw 一 0 
G 1=1 


注意 , 32g 上 是 向 量 ， 因 此 我 们 令 其 为 0， 即 一 个 相同 大 小 的 为 零 的 向 量 。 记 得 第 1 章 
采用 的 简写 矩阵 /向 量 : 


2XT 1 i ti 
T 
2 1 yy t» 
天 一 "ff 一 
XN J TN tn 


在 该 表达 式 中 ， Sa 可 以 写成 XTt ， 同 理 ， 二 也 可 以 写成 XTXeu (参见 练习 EX 1.5)。 


这 就 允许 我 们 用 更 方便 的 向 量 /矩阵 形式 写 出 其 导数 ， 
OlogL _ 
Ow 


解 该 表达 式 中 的 w ， 可 以 得 到 最 优 值 的 表达 式 
(Xt rR y =0 


Txt— XiXw)=0 (2-32) 
oO 


X't— XXw=0 
X'Xw = X't 
w = (X'X) Xt 
这 就 是 w 的 最 大 似 然 解 : 
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ww CXIX) XL (2-33) 


值得 注意 的 是 ， 该 解 是 正确 的 ， 它 已 经 在 第 1 章 中 (1.16 节 ) 通过 最 小 二 乘法 得 到 。 如 果 
将 吕 声 假设 为 高 斯 分 布 ， 则 最 小 化 平方 损失 等 同 于 最 大 似 然 解 。 同 样 ， 品 声 变量 2 ， 在 该 
表达 式 中 并 未 出 现 一 一 它 衡 量 似 然 值 ， 但 它 不 会 影响 也 对 应 的 最 大 值 。 

为 了 获得 a 的 表达 式 (假设 w= 二 鲍 )， 我 们 可 以 采用 相同 的 步骤。 采用 偏 导数 和 令 其 
等 于 0， 可 以 得 到 : 





一 二 一 (2-34) 


oo 0 本 


重 排 给 定 的 o> ,or? 的 最 大 似 然 估计 为 : 








2 (2-35) 
这 个 表达 式 非 常 有 意义 一 一 变量 就 是 简单 的 均 方差 误差 。 我 们 更 喜欢 用 矩阵 表示 ， 因 此 鉴于 
i 
二 一 疝 (1 一 关 久 )T(4 一 X 铅 ) (2-36) 
ll 


Nt 一 217 站 多 十 负 TX'KK 甸 ) 
这 还 可 以 借助 也 = 〈X'X)”"X't 进行 进一步 简化 (注意 ， 因 为 (X'X) 是 对 称 的 ， 所 以 
多 人 二 1X(X'X)”"”， 因 此 它 等 于 其 自身 的 转 置 ): 
六 三 Nt — 2tTX(XTX) Xt IXCXT EK) XKXCXTK) XT) 


= 六 Ce 一 2tTX(X'X) 'X't+t XX X) "XL) 


二 Nt ATXCXTX) XTL) 


(tt—tiX%) (2-37) 


利用 奥运 会 100 米 数据 ， 最 优 的 参数 值 (等 于 1 阶 (线性 ) 多 项 式 ) 为 : 
这 一 [36.4165, 一 0.0133] ,人 二 0.0503 


负 等 同 于 第 1 章 得 到 的 最 小 二 乘 解 (它们 使 用 相同 的 表达 式 求 得 )。o? 说 明了 高 斯 噪声 的 方 
差 ， 我 已 经 假设 其 用 于 破坏 我 们 的 数据 。 本 章 的 后 面 我 们 将 看 到 ， 这 样 对 噪声 建 模 有 利于 损 
失 的 最 小 化 。 在 此 之 前 ， 我 们 先 看 看 解 的 特点 。 


2.7.3 最 大 似 然 解 的 特点 


在 第 1 章 中 ， 我 们 使 用 损失 函数 的 2 阶 导 数 来 确保 我 们 已 经 找到 最 小 值 。 现 在 我 们 将 同 
样 用 似 然 的 2 阶 导 数 来 确保 我 们 已 经 找到 最 大 的 似 然 值 。 我 们 的 2 阶 导数 现在 是 关于 向 量 的 
并 测试 2 阶 导 数 ， 我 们 构建 了 Hessian 矩阵 〈 参 见 注解 2. 6) 。 该 矩阵 中 的 每 个 元 素 都 是 关于 
也 元 素 对 的 2 阶 导 数 。 为 了 确保 我 们 已 经 找到 了 最 大 似 然 值 ， 我 们 必须 证 实 海 Hessian 阵 是 
负 定 的 (参见 注解 2.7) 。 
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注解 2.6 (Hessian 矩阵 ) : Hessian 矩阵 是 一 个 包含 所 有 函数 的 2 阶 偏 导数 的 方 阵 。 例 
如 ， 带 有 参数 也 = [wi,…,wx]' 的 函数 f(x,w) 的 Hessian 和 矩阵 为 : 
本 of of We of 5 
Ovw? OW1 Os Orzol OWwk 
of of ey of 
H — Ot» Ow1 Ow; Orz， OWwk 
of 3 .,, Bf 
[Bwxr Ow Dwx Ovw Bwk | 
我 们 可 以 从 Hessian 和 矩阵 中 了 解 方程 f(x;w) 中 的 拐点 信息 。 例 如 ， 如 果 Hessian 
矩阵 在 某 一 拐点 多 是 负 定 的 ， 那 么 我 们 知道 这 一 拐点 就 是 极 大 值 。 
注解 2. 7 ( 负 定 矩阵 ) : 如 果 一 个 实 和 矩阵 HH 对 于 所 有 的 实 值 向 量 x 满足 
x'HxQ=0 
则 称 该 矩阵 是 负 定 的 。 
2 阶 偏 导数 的 Hessian 矩阵 可 以 通过 对 式 (2-32) 关于 w ' 求 导数 而 求解 : 
DlogL __ lyxrx (2-38) 
DBzaz o 


如 果 用 x, == [1,x,]" 进行 替换 ， 那么 该 矩阵 的 对 角 线 元 素 就 等 于 (它们 的 不 同 之 处 在 于 乘 以 
了 一 个 常数 ) 式 (1-9) 的 2 阶 偏 导数 (参见 练习 EX 2.7) 。 
这 肯定 是 一 个 最 大 值 ， 我 们 需要 确定 这 个 矩阵 是 否 是 负 定 的 。 我 们 可 以 通过 如 下 来 实现 : 
一 六 z IIXTIXz < 0 
对 于 任意 向 量 z 或 者 相当 于 (因为 必须 为 正 的 ) : 
z'X'Xz>0 

到 此 ， 证 实 如 何 做 到 这 一 点 是 有 价值 的 。 我 们 假设 每 个 xz, 是 二 维 的 ， 这样 即 可 展开 得 到 各 
项 。 更 一 般 地 ， 我 们 将 X 定义 为 与 以 前 稍微 不 同 : 


T 
Xl 11 X12 
X» T21 2 
» = 和 = . 
本 
XN NI TN 
因此 , X7X 为 
N N 
2 x 
六 动 > 
i=1 i=] 
X'X= 


N N 
S$ mm 方 ;一 
i=1 i=1 
它 与 一 个 随机 实 向 量 z = [x ,xz;]」 进行 前 乘 或 后 乘 ， 结 果 为 : 
N N N N 
z"X'Xz = [= 0 让 瑟 Sr ， 之 1 > nrg 二 到 2 | 之 
i=1 i=1 i 一 1 


i=] 
N N N 
= jg > 2 > 2 
一 Zi 十 2zilzs ZilZi2 十 2 Ti 
i=1 i=1 i=1 
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DT EN, 所 以 证 明 该 表达 式 大 于 0 就 等 同 于 证 明 它 们 的 和 大 于 中 间 项 : 


于 并 十 Dh > mm Din 
定义 ya = zixn ,Yi 一 222i2 ， 并 将 其 代入 上 表达 式 ， 得 : 


3 (yi 二 y%) 这 2 DY yay 
现在 ， 对 于 任意 的 i， 
ya 十 ya 3 2yiyiz 
yi—2yayz 二 yi 之 0 
《4yii 一 Da 二 0 
只 有 当归 三 yz ， 攻 xn == zz 时 该 式 才 不 成 立 该 情况 在 实际 中 不 可 能 发 生 。 因 此 ， 如 果 
对 于 任意 交办 十 网 二 2yaya 成 立 ， 则 任意 数目 的 该 项 的 和 也 一 定 满足 该 不 等 式 。 因 此 
z 'X'Xz 恒 大 于 零 ，Hessian 矩阵 是 负 定 的 ， 且 解 就 是 最 大 似 然 值 。 
为 了 确保 2 就 是 最 大 似 然 值 ， 我 们 对 式 (2-24) 关于 c 求 导数 : 
log 3 年 凡 六 全 一 生 光 3 
Oo 0 o 
我 们 可 以 替换 式 (2-36) 所 给 的 0 值 来 简化 该 表达 式 ， 结 果 为 : 


ologL _N | NP 


(2)? 











Ooo’ 念 
o 


上 式 恒 小 于 零 ， 因 此 2 为 最 大 似 然 值 。 
2.7.4 最 大 似 然 法 适用 于 复杂 模型 


将 关 的 表达 式 ( 式 (2-35)) 代入 对 数 似 然 表 达 式 ( 式 (2-31))， 得 到 了 最 大 值 的 对 数 
似 然 值 : 


二 
2 2 六 
o 


一 -全 十 log 2r) log 六 


该 式 告诉 我 们 , 工 的 最 大 值 随 着 o 的 减 小 而 增 大 。o? 是 噪声 的 方差 ， 而 噪声 是 模型 的 组 
成 部 分 ， 其 目的 在 于 捕获 模型 〈 即 f(x;w ) ) 中 决定 性 部 分 不 能 捕获 的 影响 。 减 小 of 的 一 
种 方法 是 调整 f(x;w ) 使 其 难以 捕获 数据 中 更 多 的 变异 性 一 一 使 其 更 加 灵活 。 例 如 ， 对 于 
奥运 会 100 米 数 据 ， 可 以 通过 拟 合 阶 数 不 断 增 大 的 多 项 式 来 增加 似 然 值 ， 从 而 研究 模型 的 灵 
活性 (或 复杂 性 )。 图 2-11a 表明 log 工 随 着 多 项 式 阶 数 的 增 大 而 增 大 符合 奥运 会 100 米 数据 
(MATLAB 脚本 : olymplike.m)。 如 果 我 们 打算 用 log 工 帮助 我 们 选择 使 用 哪个 特定 的 模 
型 ， ce 这 看 起 来 似乎 是 一 个 明智 的 决 


策 一 因为 随 着 0 的 的 减 小 ， 模 型 能 够 捕获 数据 中 更 多 的 变异 性 。 然 而 ， 考 虑 如 果 我 们 的 任 
务 是 预测 我 们 还 没 观察 到 的 某 一 年 的 获胜 时 间 (比如 2016 年 )。 图 2-1lb 显示 了 1 阶 ( 虚 
线 ) 和 8 阶 〈( 实 线 ) 多 项 式 均 适用 于 预测 2016 年 的 数据 (用 大 的 黑 点 表示 )。 更 复杂 的 模型 
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预测 获胜 的 时 间接 近 11 秒 〈 这 可 能 是 至 今 最 慢 的 速度 ) ， 而 简单 模型 的 预测 更 真实 。 对 人 来 
说 ， 似 乎 是 简单 模型 捕获 了 数据 中 重要 的 关系 〈 不 断 下 降 的 趋势 ) 而 更 复杂 的 模型 却 没 有 。 
这 就 是 1. 5 节 所 看 见 的 变化 和 过 度 拟 合 之 间 取 舍 的 一 个 漂亮 例子 。 简 单 模型 比 复杂 模型 具有 
更 好 的 概括 性 。 复 杂 模 型 过 度 拟 合 一 一 我 们 给 了 其 更 大 的 空间 以 至 于 它 试图 将 本 质 上 是 噪声 
的 数据 变 得 有 意义 。 在 1.6 节 ， 我 们 已 经 见证 了 如 何 将 正则 化 应 用 于 惩罚 过 度 复杂 的 参数 
值 。 该 方法 同样 可 以 通过 参数 值 的 先 验 分 布 用 于 概率 模型 ， 这 将 在 第 3 童 介绍 。 





























12 
lS 
= 
导 10.5 
竖 
10 
0 1 i ， 1 9.5 1 i 1 1 1 1 
2 4 6 8 10 1880 1900 1920 1940 1960 1980 2000 2020 
多 项 式 阶 年 
a) 对 数 似 然 值 随 着 多 项 式 阶 数 的 增 大 而 增 大 b) 1 阶 和 8 阶 多 项 式 拟 合 奥 运 会 100 米 数据 。 
大 黑 点 表示 对 2016 年 的 预测 值 


图 2-11 关于 奥运 会 男子 100 米 数据 模型 复杂 度 的 实例 


2.8 偏差 -方差 平衡 问题 

1.5 节 已 经 讨论 过 的 泛 化 与 过 度 拟 合 的 折 中 问题 有 时 描述 为 偏 置 -方差 的 折 中 问题 。 试 
想 我 们 已 经 获得 了 我 们 取样 数据 的 分 布 p(x,t) 。 理 论 上 ， 我 们 可 以 使 用 这 个 分 布 来 计算 估 
计 参 数值 和 真实 值 之 间 期 望 的 均 方 误 。 我 们 希望 这 个 值 页 ， 尽 可 能 地 小 。 它 是 由 偏差 B 与 
方差 两 部 分 组 成 : 

MA=B+y 

偏差 -方差 平衡 描述 的 是 模型 和 生成 数据 过 程 的 系统 误差 。 模 型 越 简单 ， 其 偏离 程度 越 
高 〈 低 拟 合 ) 。 因 此 我 们 可 以 通过 减 小 偏差 和 对 页 的 贡献 来 使 模型 更 复杂 。 遗 憾 的 是 ， 越 复 
杂 的 模型 具有 越 大 的 方差 ， 因 此 增 大 了 XA 中 的 v 值 。 寻 找 泛 化 和 低 /过 度 拟 合 间 的 平衡 问题 
也 就 是 寻找 偏差 -方差 平衡 问题 。 

我 们 略 掉 了 进一步 的 详细 介绍 ， 但 是 更 细节 的 内 容 可 以 在 本 章 结尾 推荐 的 读物 中 找到 。 


2.8.1 小 结 


在 2.7 节 ， 我 们 已 经 介绍 了 很 多 新 概念 。 首 先 我 们 介绍 了 一 个 显 式 地 对 数据 噪声 (或 误 
差 ) 建 模 的 例子 。 通 过 假设 这 些 误差 可 以 用 高 斯 随机 变量 进行 建 模 ， 我 们 证 实 我 们 可 以 计算 描 
述 数据 如 何 相似 的 称 为 似 然 值 的 量 。 假 设 参数 服从 高 斯 分 布 ， 当 已 知 最 优化 参数 的 相同 的 表达 式 
选择 参数 和 最 大 化 似 然 函 数 最 小 化 平方 误差 时 ， 这 是 一 个 合理 的 值 。 在 本 章 的 剩余 部 分 中 ,我 们 
将 分 析 对 噪声 建 模 的 两 个 重要 好 处 。 能 够 确定 不 确定 参数 的 个 数 和 能 够 表达 预测 的 不 确定 性 。 


2.9 噪声 对 参数 估计 的 影响 


在 本 节 中 ， 将 会 推导 出 参数 估计 有 多 大 置信 度 的 表达 式 一 一 我 们 如 何 改变 直线 但 仍然 有 
一 个 好 的 模型 。 如 果 噪 声 很 大 〈e 很 高 )， 可 能 我 们 就 能 够 忍受 包 大 的 改变 。 如 果 噪 声 很 
小 ,那么 拟 合 的 质量 就 将 会 快速 恶化 。 在 我 们 得 到 表达 式 前 ， 有 必要 探究 在 生成 综合 数据 中 
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多 的 变化 程度 。 特 别 地 ， 我 们 将 生成 大 量具 有 相同 真实 w 和 o” 的 数据 ， 来 看 看 最 大 似 然 值 
如 何 估计 全 的 变化 。 参 考 如 下 模型 ; 
太一 oo 十 zy 十 se 一 人 Oo) (2-39) 
假设 真实 参数 值 为 rw 二 一 2,w 二 3 ， 且 噪声 方差 中 == 0. 5”， 我们 就 能 够 针对 特定 的 一 组 
特征 值 (zi ,z ,x;，… ,zn) 生成 我 们 想 要 的 任意 部 
多 组 数据 (4 ,4 ,43,… ,tw) ， 并 且 能 够 计算 每 一 2 
组 数据 的 而。 图 2-12 显示 了 一 个 这 种 数据 集 的 。 中 | 
例子 和 真实 方程 ， 其 中 特征 值 包含 了 20 个 
(0，1) 均匀 分 布 的 值 ， 即 p(x) 二 WU(0,1)。 of 
图 2-13 显示 了 生成 的 10 000 个 数据 集 以 及 每 
一 种 情况 下 的 拟 合 值 久 。 图 2-13a 中 的 柱 形 图 
每 个 条 形 的 高 度 表示 生成 某 种 特定 范围 内 参 2 

















数值 的 数据 集 的 个 数 ; 图 2-13b 表示 其 相同 。 
含义 的 等 概率 线 图 。 我 们 可 以 发 现在 真实 值 30 ee 
周围 ,zw 和 zw 均 在 较 大 范围 内 变化 。 很 难 从 | | | 


这 些 值 中 得 到 该 模型 所 呈现 出 来 的 变化 程度 。 图 2-12 式 (2-39) 所 示 模 型 生成 的 数据 和 真实 函数 
该 例 中 10 个 数据 集 的 多 和 真实 函数 如 图 2-14 所 示 。 

















图 2-13 式 (3-39) 所 示 模 型 生成 的 10 000 个 数据 集 的 包 的 变化 
如 果 假 设 真实 数据 集 也 是 通过 同样 的 过 程 生成 的 ， 那么 它 对 于 定量 估计 结果 的 变异 性 很 





有 帮助 。 遗 憾 的 是 ， 我 们 没有 很 多 能 进行 比 。。 15 一 | 
”| 较 钙 的 数据 集 。2.9. 1 节 将 介绍 如 何 利用 可 用 I S 
77 | 数据 来 确定 这 种 不 确定 性 。 0 


2.9.1 参数 估计 的 不 确定 性 


我 们 在 最 后 一 节 说 明 我 们 所 获得 的 鲍 值 
受到 数据 中 特定 噪声 的 严重 影响 。 鉴 于 这 种 
情况 ,， 它 将 有 利于 认识 鲁 的 不 确定 性 程度 。 | 
换 句 话说 ， 能 够 很 好 地 诠释 数据 的 唯一 值 | 
还 是 说 有 很 多 这 样 的 值 能 做 到 同样 的 效果 ? 2 0 0 0 0 1 

为 了 更 进一步 ， 我 们 必须 弄 清楚 w 和 它 


的 兽 义 。 我 们 已 经 提 术 了 一 个 与 数 锋 有 美的 时。 全 灾 证 各 的 
模型 ， 这 个 模型 就 是 : ee 
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t, = wx,+te, 
其 中 w 表示 参数 的 真实 值 , e, 是 一 个 已 经 定义 为 正 态 分 布 的 随机 变量 。 这 一 假设 意味 着 生成 
分 布 (或 似 然 值 ) p(t|X,w ,oa ) 是 许多 正 态 密度 的 乘积 : 


N N 
pt|X,w 0) = [pdxw 10) = [| Nw "x, ,0’) 
n=1] n=] 


在 2.5.4 节 中 ， 我们 已 经 介绍 了 如 何 将 单元 高 斯 密度 的 乘积 写成 一 个 具有 对 角 协 方差 的 
多 元 高 斯 密度 。 用 单个 多 元 高 斯 密度 比 用 多 个 单元 高 斯 密度 的 积 简洁 。 这 样 ， 多 元 高 斯 分 布 
就 是 : 
p(t|X,w ,0o) = NXw ,oT) 
令 自 己 满意 的 是 均值 和 协 方差 均 是 正确 的 。 现 在 多 是 真实 参数 值 w 的 估计 。 通 过 计算 
针对 生成 数据 分 布 的 也 的 期 望 值 (2. 2. 8 节 )， 将 会 告诉 我 们 所 期 望 的 多 ， 其 平均 值 为 : 


Eylx,ws) (wo } = | plX,w ,0 ) dt 
将 多 = (XX) Xi 代入 上 式 ， 我 们 就 能 够 估计 其 积分 : 
再 ialzwey (VW } = IOXT ip 1X sw ,02 ) dt 


到 iclxiwt {WW} = (XX) KX Eo |x ,ws (t) 
) = (XTX)TXTXw 
Eylx,w,) { 也 一 w 

其 中 ， 用 到 这 样 一 个 事实 一 一 正 态 分 布 随 机 变量 的 期 望 值 等 于 其 均值 (Epix,w2) {t} = Xw ， 
因为 p(X,w ,0 ) = N(Xw ,0:D)). 

该 结果 告诉 我 们 ， 通 近 也 的 期 望 值 是 参数 的 真实 值 。 本 章 后 面 将 更 加 详细 地 探讨 它 ， 但 
是 它 意味 着 我 们 的 估计 值 是 无 偏 的 一 一 这 是 错误 的 ， 因 为 这 是 平均 值 ， 实际 可 能 更 大 或 
更 小 。 

多 估计 中 的 变异 性 包含 在 它 的 协 方差 和 矩阵 中 。 针 对 我 们 的 目的 ， 这 个 协 方差 矩阵 能 够 提 
供 两 方面 有 用 的 信息 。 对 角 元 素 (多 中 单个 元 素 的 变异 性 ) 告诉 我 们 单个 参数 中 期 望 的 变异 
性 一 一 即 它 们 被 数据 定义 的 好 坏 程度 。 在 前 面 的 实验 中 ， 参 数 表 现 出 较 大 的 变异 性 ， 表 明 它 
们 没有 被 数据 很 好 地 定义 。 非 对 角 元 素 告 诉 我 们 ， 参 数 如 何 协 同 变异 一 一 如 果 值 很 高 且 为 
正 ， 它 就 告诉 我 们 增加 一 个 值 将 导致 其 他 值 增 大 ， 从 而 得 到 一 个 非常 好 的 模型 。 大 量 负 值 则 
告诉 我 们 相反 的 信息 一 一 即 增 大 一 个 值 导 致 其 他 值 减 小 。 趋 近 于 零 的 值 告诉 我 们 这 个 参数 与 
其 他 参数 是 独立 的 。 例 如 ， 上 文 提 到 的 例子 〈 见 图 2-13) ， 似 乎 是 增 大 zw ， 导 致 rw 下 降 ， 
因此 我 们 期 望 协 方差 矩阵 中 的 非 对 角 元 素 是 负 值 。 

在 2.2.8 节 ， 我 们 得 到 了 协 方差 矩阵 的 通用 表达 式 ( 式 (2-16)), 将 t 和 p(t|X,w ,0o) 
代入 该 式 并 使 用 之 前 的 结果 Exwz){ 久 ) = 二 w ， 将 得 到 : 


cov{ 包 } 一 Eylx,w,o) {本 多 "一 Eylx,w,o) {区 } Eylx,wo) {Ww )} 


(2-40) 


&> 


Eylx,w.s) 人 


末 


一 再 polxwe2 (WO) ww (2-41) 
其 中 我 们 使 用 前 面 得 到 的 也 的 期 望 值 。 为 了 计算 这 个 值 ， 将 从 第 一 项 开始 。 通 过 将 多 = 
(XXX) "Xt 代入 并 删 掉 所 有 不 含 t 的 项 ， 该 式 可 以 展开 为 : 
Epixw) {WO ) = Epoxw) (((X XX DX XX 1) 
= (XX) 大 Exwo) (tt XCX XX) (2-42) 
现在 , p(t|X,w ,a ) 二 NN(Xw ,oT) 。 因 此 ， 根据 定 义 ,t 的 协 方差 是 21T， 均 值 是 Xew 。 
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使 用 同样 的 推导 方式 ， 将 式 〈2-41) 变 为 : 
cov(t} = oT = Exwe) {tt ) — Eyalxwo) (t)} Eyalxwe) 人 (2-43) 
因此 ， 我 们 可 以 重新 组 织 该 表达 式 ， 得 到 Eslx,wz) (tt") 的 表达 式 为 : 
Eyaixwa) {tt } = Eyalxwo) (t} Booaxws) Ci) + ol 
= Xw (Xw )' +oI 
= Xww TXT +oI 
将 该 式 代 入 式 〈2-42)， 将 得 到 : 
Eyiixws) {ww TI) = (XTX) XT Krww TXTXCXTX)- 
二 go (XTX) -TXTXCXTX) 


= ww '+o (XX) (2-44) 
最 后 ,将 该 式 代 入 式 〈2-41) ， 将 得 到 也 的 协 方差 矩阵 的 表达 式 : 
cov{ 孔 ) 一 ru 十 (XITX) 一 ro 

ds .3 (2-45) 


它 是 之 前 得 到 的 2 阶 导 数 的 Hessian 矩阵 式 (2-38) 的 负 反 函数 ， 即 


(2-46) 


cov{w} = oo XX)! 三 一 (ES) 


zwaz 
该 结果 告诉 我 们 ， 参 数 的 确定 性 /不 确定 性 (用 cov( 馆 ) 表示 的 ) 直接 与 对 数 似 然 值 的 2 阶 
导数 相关 。 对 数 似 然 值 的 2 阶 导 数 告诉 我 们 似 然 函数 的 弯曲 程度 。 因 此 ， 低 弯曲 对 应 于 参数 
较 高 的 不 确定 性 ， 而 高 弯曲 对 应 于 较 低 的 不 确定 性 。 换 名 话说， 我 们 有 了 一 个 能 够 告诉 我 们 
数据 能 够 给 我 们 多 少 关于 参数 估计 的 信息 表达 式 。 事 实 上 ， 和 矩阵 (XX) 是 一 个 叫做 费 会 
尔 信息 (Fisher Information) 矩阵 (ZT) 的 负 反 函数 。 费 舍 尔 信息 和 矩阵 是 用 对 数 似 然 值 的 2 
阶 导数 和 矩 阵 的 期 望 值 来 计算 的 : 


一 Booixwe | 





Owow! 


我 们 已 经 知道 括号 中 的 项 是 什么 一 一 我 们 之 前 计算 的 Hessian 和 矩阵， 因此 
T= Ew (XX) 


由 于 期 望 值 是 一 个 常数 ， 因 此 它 为 


oO’ log p(t|X,w 2 


工 一 FXX (2-47) 
I 告诉 我 们 数据 能 给 我 们 提供 多 少 关 于 一 个 特定 参数 (对 角 元 素 ) 或 参数 对 〈 非 对 角 元 素 ) 
的 信息 〈 越 是 负 值 ， 信 息 所 呈现 的 信息 量 越 大 )。 直 观 地 讲 ， 如 果 数 据 噪声 非常 大 ， 则 信息 
量 就 很 低 。 一 般 来 说 ， 如 果 信 息 量 很 大 ， 那 么 数据 能 够 提供 非常 准确 的 参数 估计 且 耽 的 协 方 
差 将 很 低 (cov( 区 ) 二 ZT-!1)。 如 果 信 息 量 很 低 ， 协 方差 将 很 高 (参见 练习 EX 2.13 和 EX 
Ss ys 
看 一 个 例子 ， 观 察 图 2-15 中 最 上 面 的 线 。 左 侧 图 显示 了 数据 和 真实 函数 (1 二 3x 一 2)， 
右 侧 图 显示 了 两 个 参数 函数 的 似 然 值 。 我 们 可 以 发 现 ， 由 于 较 高 程度 的 噪声 ， 所 以 似 然 函 数 
具有 和 较 低 的 弯曲 度 〈 图 形 轮廓 相距 很 远 ) ， 因 此 许多 数据 集 的 参数 将 产生 一 个 合理 的 模型 。 
从 式 (2-46) 可 知 ， 低 弯曲 度 将 对 应 于 高 区 的 协 方差 。 费 舍 尔 信息 矩阵 和 协 方差 矩阵 为 : 
50. 0000 24. 3311 本 0.0784 一 0.1200 
一 ,COV{ 色 } 一 
Pg | [a andl 
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很 难 知道 在 没有 上 下 文 的 情况 下 ， 这 些 是 否 对 应 于 高 或 低 的 信息 量 或 协 方差 。 这 一 点 可 
以 通过 将 它们 与 第 二 个 数据 集 (图 2-15 中 的 第 二 行 ) 获得 的 情况 进行 比较 得 出 。 该 数据 集 
的 噪声 较 低 且 对 应 的 似 然 曲 线 弯曲 度 很 高 〈 图 形 轮廓 距离 很 近 )。 在 这 种 情况 下 ， 信 息 和 矩阵 
和 协 方 差 矩阵 为 : 
1. 2500 X 103 0.6083 X 108 本 0. 0031 一 0.0048 
r=| ,|eovtw} =| | 
0.6083X10 0.3974X 10 一 0.0048 0. 0099 











4 
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Ne 总 
cy 2.5 
Ey 
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a) b) 
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图 2-15 具有 不 同 噪声 程度 和 相应 似 然 函 数 的 两 个 数据 集 的 例子 
它 明显 具有 和 较 高 的 ZT 值 和 较 低 的 cov{ 芍 } 值 。 


2.9.2 与 实验 数据 比较 


在 2.9 节 的 开始 ， 我 们 根据 式 (2-39) 的 模型 生成 了 对 应 一 组 输入 的 数据 集 。 如 果 我 们 
用 吃 . 来 表示 第 * 个 数据 集 的 参数 ， 则 实验 数据 的 协 方差 矩阵 可 以 通过 如 下 公式 计算 : 


cB) = HYD — A" 


其 中 | 
hi= 计 2， 
使 用 图 2-13 中 所 用 的 值 ， 实 验 协 方差 矩阵 为 : 
fF 0.0627 一 0.0809 
SO We ed 


利用 式 (2-45) 及 其 真实 值 2 二 0. 5* ， 理 论 协 方差 矩阵 为 





L82 | 
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0.0638 一 0.0821 
CO =|_& wim Dead | 

它 非常 接近 实验 数据 。 通 常 ， 我 们 没有 深 不 可 测 的 数据 ， 因 此 我 们 可 以 用 理论 协 方差 矩阵 来 
帮助 我 们 理解 数据 中 的 变异 性 。 非 对 角 元 素 是 负 值 一 一 即 增 大 其 中 一 个 参数 将 引起 其 他 参数 
减 小 。 

为 了 计算 理论 协 方 差 矩 阵 ， 使 用 了 真实 噪声 方差 。 如 果 我 们 考虑 任意 的 数据 集 ， 那 么 我 
们 〈 使 用 式 〈2-35)) 能 够 估计 方差 为 o = 二 0. 2080 (真实 值 是 二 0.25)， 使 用 估计 方差 的 协 
方差 矩阵 是 

0.0530 一 0.0683 
a dy | 
由 于 o 的 估计 值 比 真实 值 小 ， 所 以 该 矩阵 的 值 也 比 使 用 真实 噪声 值 的 矩阵 值 小 。 这 表明 不 
确定 性 被 低估 了 ， 我 们 的 预测 过 度 自 信 。 最 大 似 然 噪声 的 低估 问题 将 在 2. 10. 2 节 做 更 全 面 
的 讨论 。 

在 2.9 节 的 开始 ， 我 们 发 现 准 确 的 噪声 值 改变 也 改变 了 参数 的 估计 值 。 在 现实 中 ， 我 们 
不 能 生成 用 于 估计 参数 值 不 确定 性 的 数据 集 。 然 而 ,我们 已 经 得 到 了 一 个 多 的 协 方差 表达 
式 ， 能 用 于 评价 参数 的 不 确定 性 。 在 转向 预测 的 变异 性 前 ， 我 们 将 关注 奥运 会 数据 的 最 大 似 
然 值 所 存在 的 不 确定 性 。 


2. 9.3 ”模型 参数 的 变异 性 一 一 奥运 会 数据 
现在 ， 使 用 相似 的 奥运 会 男子 100 米 数据 和 标准 线性 函数 


f(x;jw)=w'x 
我 们 知道 ，w 的 最 大 似 然 值 史 是 [36. 4165， 一 0.0133]”( 来 源 于 式 (2-33))。 最 大 似 然 值 
的 方差 这 可 以 用 式 (2-37) 计算 , PY 二 0.0503。 使 用 式 (2-45)， 用 这 表示 a? 的 估计 值 ， 我 们 
能 够 计算 估计 值 的 协 方差 矩阵 : 
5. 7972 一 0.0030 
pi | et | 
考虑 对 角 元 素 ， 我 们 可 以 发 现 区 ,(5.7972)〉 的 方差 比 共 (1. 5204e 一 06) 的 方差 大 ， 这 表明 
我 们 能 够 忍受 码 , 具有 上 比 友 ; 大 的 变化 ， 且 仍 12 
然 维 持 一 个 较 合 理 的 好 模型 。 在 某 种 程度 
上 ， 这 可 以 用 这 样 一 个 事实 来 解释 ，z, 有 11.5 
更 大 的 绝对 值 。 非 对 角 元 素 的 负 值 性 告诉 
我 们 ， 如 果 我 们 稍微 增加 即 , 或 三。 的 值 ， 那 
么 势必 引起 其 他 值 的 稍微 减 小 。 这 是 比较 
直观 的 一 一 如 果 我 们 稍微 增 大 友 。， 那 么 整 
个 直线 将 上 移 ， 人 WT 的 最 好 值 将 会 稍微 减 小 
(从 而 产生 一 个 更 加 陡峭 的 负 梯 度 ) 以 更 加 
接近 所 有 的 数据 点 。 a 
了 解 cov( 人 奏 ) 含 义 的 另 一 种 方法 是 关注 1900 1920 1940 1960 1980 2000 
模型 的 变异 性 。 为 此 ， 我 们 可 以 假设 雹 是 
高 斯 分 布 的 随机 变量 图 2-16 式 (2-48) 所 示 分 布 的 ww 的 10 个 样本 


获胜 时 间 (s) 
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w~ NMN(W ,cov(W }) (2-48) 
从 这 个 密度 ， 我们 可 以 抽样 很 多 w 示例 来 勾画 模型 。 一 个 10 个 样本 的 例子 如 图 2-16 所 示 ， 
我 们 可 以 发 现在 10 个 样本 中 只 有 zw 的 坡度 有 很 小 的 改变 , 但 是 如 果 我 们 回 推 至 第 0 年， 
这 个 小 小 的 改变 有 可 能 引起 w。 较 大 的 变化 。 这 可 以 通过 已 经 讨论 过 的 cov( 区 ) 来 反映 。 使 
用 模型 参数 的 一 种 分 布 而 不 是 其 最 优 值 的 思想 在 机 器 学 习 中 非常 重要 ， 第 3 章 将 进行 介绍 。 


2.10 预测 值 的 变异 性 

在 第 1 章 ， 我 们 做 了 一 些 关 于 未 来 奥运 会 100 米 获胜 时 间 的 预测 。 我 们 认为 这 些 预 测 不 
会 很 有 用 ， 因 为 它们 是 以 非常 精确 的 形式 呈现 。 预 测 出 一 -不 我 们 认为 节 克 果 间 可 通 分 布 范 因 
的 值 应 该 更 加 合理 。 如 果 我 们 非常 确定 我 们 的 预测 值 ， 那 么 这 个 范围 可 能 比较 小 ; 如 果 我 们 
不 太 确定 ， 范 围 可 能 就 比较 大 。 因 此 ， 正 如 我 们 得 到 参数 估计 值 双 的 变异 范围 一 样 ， 得 到 预 
测 值 的 变异 范围 或 者 不 确定 性 也 就 比较 有 意义 。 假 设 我 们 观察 了 一 组 新 的 属性 xs ， 我 们 将 
要 预测 新 的 输出 ti 以 及 其 相应 的 变异 度 crew 。 

为 了 预测 ti.。， 用 将 xss 乘 以 最 优 模 型 参数 芒 


[2 (2-49) 
为 了 证 明 这 样 做 是 有 意义 的 ， 我 们 可 以 计算 其 期 望 值 : 


Eylriwey ay = Ey (tw } Xiew = WwW Xnew 
这 里 我 们 使 用 了 式 (2-40)。 预 测 值 的 期 望 值 就 是 新 的 输入 值 乘 以 真实 的 w 。 在 2. 28 节 ， 我 
们 得 到 了 一 个 更 通用 方差 表达 式 。 在 我 们 的 情况 中 ， 就 是 
anew 一 Var(tnew)} 一 Ev ne yd = CB ycy (le 
为 了 评估 该 表达 式 ， 我 们 首先 需要 将 tv 王公 xuov 代 和 人: 
VE 
对 w 


量 


{ 
= Epilswd) (Xiew DD T Know) — Xiew tL Xiew 


代入 类 似 区 的 表达 式 : 
var {trew) = XL (KX) XT Es) (tt XOXTK) Kio — XE We VT Xoew 
使 用 cov{z} 的 表达 式 ( 式 (2-43))， 可 以 计算 期 望 值 并 简化 表达 式 : 
Var(tiew) = xL, (XX) XT GT Krwrw TXT IXCXT XK) xoo, — XL, tw TKoew 
. = oR CR KR) Kw | Kaw WO 一 总 iew 
= go: xl (XX) xow 
注意 ， 如 果 将 cov( 区 ) ( 式 (2-41)) 代入 该 表达 式 ， 则 该 表达 式 可 以 改写 成 : 
Glew = Xow COV{ WD Fie 

总 之 ， 预 测 值 和 相应 的 方差 为 : : 
Le Xl (RR RE = (2-50) 
0 三 玉芝 RY 。 (2-51) 

co 是 数据 噪声 的 真实 方差 。 在 此 处 ， 我 们 可 以 用 估计 值 人 将 代 它 。 


2. 10. 1 预测 值 的 变异 性 一 一 一 个 例子 


图 2-17a 显示 了 方程 f(x) 二 5x 一 x 十 x 和 取样 点 以 及 被 均值 为 0、 方 差 为 1000 的 高 斯 
分 布 的 噪声 干扰 的 情况 。 在 图 2-17b、c、d 中 ， 我们 可 以 发 现 tow 士 osew 分 别 为 线性 、 立 方 和 
6 阶 模型 (MATLAB 脚本 : predictive variance example.m)。 
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图 2-17 a) 事例 数据 集 ; b)、c)、d) 分 别 为 线性 、 立 方 和 6 阶 模型 的 预测 误差 图 


线性 模型 具有 非常 高 的 预测 方差 。 它 不 能 非常 好 地 对 数据 的 真实 趋势 模 建 ， 并 且 数据 的 
很 多 的 变异 性 被 假定 为 噪声 。 立 方 模型 能 够 更 好 地 对 这 些 趋势 模 建 〈 它 是 正确 的 阶 数 )， 并 
且 它 反映 在 了 它 更 加 可 信 的 预测 值 中 。6 阶 模型 过 度 复杂 一 一 它 具 有 太 大 的 随意 度 ， 因 此 能 
很 好 地 拟 合 较 大 变化 范围 的 参数 值 。 史 的 这 种 不 确定 性 通过 增加 预测 的 变异 性 来 实现 一 一 如 
果 我 们 不 能 确定 参数 的 估计 值 ， 那 么 我 们 也 不 能 确定 它 的 预测 值 。 这 一 点 可 以 通过 计算 3 阶 
和 6 阶 模型 的 协 方差 矩阵 cov{ 欧 }， 然 后 像 2. 93 节 那 样 取样 来 证 实 。 图 2-18 显示 了 3 阶 和 6 
阶 模 型 的 只 和 cov{ 区 ) 高 斯 分 布 的 函数 图 (将 图 缩小 为 一 个 小 x 范围 内 且 黑 线 表 示 真 实 函 数 ) 
(MATLAB 脚本 : predictive variance example.m)。 在 6 阶 模型 中 ， 清楚 地 显示 
了 可 能 函数 的 不 确定 性 随 着 参数 不 确定 性 的 增长 而 增 大 的 趋势 。 


30 30 i a 
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图 2-18 图 2-17a 中 显示 数据 集 的 参数 函数 ， 具 有 均值 古 和 协 方差 cov{ 哆 } 的 高 斯 分 布 
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最 后 有 趣 的 一 点 是 ， 对 于 所 有 的 模型 ， 预 测 值 的 方差 都 随 着 我 们 靠近 数据 的 边缘 而 增 
大 。 该 模型 在 具有 较 少 数据 的 领域 里 具有 较 低 的 可 信和 度 一 一 一 个 吸引 人 的 特点 。 第 1 章 指 
出 ， 对 无 限期 未 来 的 预测 〈 即 超出 训练 数据 的 范围 ) 是 毫 无 意义 的 。 现 在 ， 我 们 有 了 一 个 能 
够 预测 超出 训练 数据 范围 的 模型 ， 但 是 这 样 做 将 会 增加 不 确定 性 ， 这 似乎 更 有 用 。 我 们 还 注 
意 到 它 影 响 数据 的 中 间 部 分 〈 尤 其 是 图 2-17d)， 其 有 一 个 小 的 间 际 (在 zx 二 1 周围 没有 太 多 
的 数据 ) 。 练 习 EX 2. 12 将 有 机 会 更 进一步 地 研究 这 种 影响 。 


2. 10.2 估计 值 的 期 望 值 


在 2.9.1 节 中 ， 我们 计算 了 估计 值 驳 的 期 望 值 。 该 期 望 值 用 来 生成 p(t|X, w，, 0 ) 王 
AN(Xw ，o* 了 1) 的 密度 ， 这 里 面 计算 一 次 : 
Eyeririway {区 } = Eelw ((XT) 
(RR Es (人 
= (XTX) XT Xw 
=JIw =w 
其 中 我 们 使 用 了 羽 的 表达 式 (区 二 (X "X) 'X't)， 并 且 事 实 是 高 斯 随机 变量 (1) 的 期 望 值 
等 于 高 斯 (Xe ) 的 均值 。 因 此 ， 估 计 值 多 的 期 望 值 是 真实 值 w 。 这 是 区 的 一 个 很 重要 的 属 
性 ， 它 告诉 我 们 区 是 一 个 无 偏 估 计 值 它 不 会 一 直 太 高 或 太 低 。 另 一 种 考虑 这 点 的 方式 是 
2. 9 节 开 始 部 分 的 实验 。 对 于 一 组 特征 值 rr，z ，z，…，zNw， 我 们 产生 了 一 组 响应 值 ， 
并 关注 不 同 噪声 对 二 有 多 大 的 影响 。 由 于 二 是 无 偏 的 ， 所 以 平均 来 讲 ， 它 应 该 是 正确 的 。 
因此 ， 如 果 我 们 采用 实验 中 所 有 这 的 平均 值 ， 那 么 将 会 非常 接近 真实 值 。 事 实 上 ， 我 们 采用 
个 三 一 2.0007 和 了 友 二 3.0008 的 平均 值 ， 它 们 都 非常 接近 真实 值 : zw 三 一 2 和 wi 二 3。 
我 们 对 噪声 方差 的 估计 值 o? 可 以 采用 同样 的 处 理 ， 式 〈2-37) 中 全 的 表达 式 为 : 


并 三 NXD) 
采用 p(t|X，w ，o*) 的 期 望 值 并 进行 一 些 操作 ， 可 以 得 到 : 





一 NE sale) {tt— 1X(X'X) Xt} 


= NE awe {217t} (2-52) 


Bus (人 Xt} 


前 面 我 们 已 经 看 到 了 形 如 tt” 的 表达 式 ， 但 不 是 ft( 二 tIt) 或 者 1"At。 当 tt 是 高 斯 随机 变量 
时 ， 表 达 式 At 的 期 望 是 : 
t~N(,E) 
Ey, {1" At} = Tr(A5) + An 
其 中 Tr() 是 迹 函 数 (参见 注解 2. 8) 。 式 (2-52) 右边 的 第 一 项 A 二 I、( 注 意 tt 二 tInt， 其 
中 IN 是 一 个 NXN 的 单位 矩阵 ); 第 二 项 ，A 二 XX(XTX) !'X'。 在 二 Xw 和 号 一 cTv 在 两 
种 情况 下 ， 将 必要 的 值 代入 式 〈2-52) 可 得 : 


注解 2.8 ( 阵 迹 ): 方 阵 4 的 阵 迹 ， 表示 为 Tr(A) 是 矩阵 4 的 对 角 元 素 的 和 ， 如 果 
Ai A ee Aip 
Az Azs 和 A2p 





A= 


Ap Ar oe App 
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则 
Tr = Yi 
随后 ， 若 A 二 1,， 即 DXD 单位 矩阵 ， 
Te = > = 
之 
一 个 将 经 常 使 用 的 单位 矩阵 是 
Tr(AB) = Tr(BA) 


同样 ， 一 个 标准 和 矩阵 的 阵 迹 等 于 其 标准 值 〈( 一 个 标准 和 矩阵 是 形 如 1X1 的 和 矩阵 )， 即 
TiaY =@ 


或 者 ， 如 果 w 二 [wi， ey wp 


Tr(w ww)=w'w 








因为 ww 'w 的 结果 为 一 个 标准 矩阵 。 





一 
2 


Byclx wa) (ta ) 一 


(TrlgIv)+w'X' Xrw ) 


之 | 一 


NCTr(o XOXTK) XT) + wT XIXCXTKX) 1 XTXw ) 


因为 IvIn 二 Ty。 根据 定义 ， 现 在 Tr(oA) 二 oTr(4)，Tr(In) 二 N。 这 样 可 以 简化 表达 
式 为 : 


2 


2 
Evirw) {to}= 0 十 TXTXw — SCTr(X(XTX) XT)— w 'X'Xw 


NR N 
Se TYCROES 
= (1— NTrCXCXT XI XT)) 
最 后 ， 我 们 需要 利用 Tr (4B) 二 Tr (BA) 的 事实 ， 因 此 迹 函 数 中 的 第 一 个 生 可 以 移动 到 最 后 
册 ， TW)-1 wT 
NIrCX X) "I'X X)) 
1 


一 
2 


Epis,wo) {o } = 0 (1 


= (1— NTr(D)) 
= (1 一 寺 ) (2-53) 
其 中 DD 是 特征 的 个 数 (X 中 的 列 数 ) 。 

假设 D==N 〈 即 我 们 测量 的 每 一 个 数据 点 的 特征 数 小 于 数据 点 的 个 数 )， 那 么 平均 方差 
的 估计 值 平均 比 实际 方差 小 : 

Wy (oY} ss 
与 区 不 同 ， 该 估计 值 是 有 偏 的 。 

我 们 可 以 返回 到 前 面 虚 构 的 实验 来 观察 这 种 偏差 。 所 有 数据 集 的 的 平均 值 为 0.2264。 
真实 值 P 二 0.5’ 一 0.25。 我 们 可 以 发 现 , 平均 值 确实 太 小 了 。 对 于 这 个 例子 ，D = 2， 
N 二 20， 因 此 我 们 理论 上 可 以 接受 的 期 望 值 是 
于 











0. 25(1 一 ) = 0. 2250 


和 2 
20 
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其 接近 于 观察 到 的 平均 值 。 
从 式 〈2-53)， 我 们 注意 到 降低 这 种 偏 置 的 一 种 方式 是 使 D/N 变 小 。D 一 般 是 固定 的 ， 
但 我 们 可 以 增 大 N。 在 图 2-19 中 ,我 们 可 以 看 到 将 N 从 20 增加 到 10 000 的 影响 (MAT- 
LAB 脚本 : w variatiion demo.m)。 随 着 数据 点 的 增加 ， 理 论 曲 线 (虚线 ) 及 实验 曲 
线 ( 实 线 ) (通过 使 用 不 同 的 观测 值 ，N， 重复 前 面 的 实验 ) 非常 接近 且 涵 盖 了 真实 

值 s? ==0. 25。 
0.25 





0.245 
0.24 

刀 
六 0.235 


0.23 





0.225 





0.22 et ee 
10’ 10? 103 104 





图 2-19 ” 随 着 数据 点 的 增加 ，Eso x.w.s {人} 的 理论 与 实验 估计 值 的 变化 


它 可 以 提供 一 个 关于 PF 偏差 的 直观 解释 。o? 的 最 大 似 然 值 估计 值 的 表达 式 是 : 
P= NXD) (2-54) 
它 可 以 改写 为 与 预测 值 和 真实 值 之 间 的 均 方 误差 和 相同 的 表达 式 (参见 练习 EX 2. 11) : 
-2 
这 就 告诉 我 们 ， 模 型 越 接 近 真 实数 据 ，P 就 越 小 。 现 在 ， 想 象 w 的 真实 值 与 估计 值 共 ， 哪 个 
更 接近 真实 数据 ?最 大 似 然 值 估 计 值 办 等 于 最 小 损失 估计 。 根 据 定 义 ， 它 们 是 一 组 接近 真实 
数据 的 参数 ， 因 此 可 以 最 小 化 他。 如 果 式 〈2-54) 中 使 用 w 的 真实 值 代 震 世 ， 那 么 得 到 的 他 


的 值 将 会 大 于 或 者 等 于 使 用 史 得 到 的 值 。 因 为 我 们 将 发 现 最 小 化 噪声 w 的 平均 值 ， 所 以 将 
随 着 噪声 程度 低 于 真实 值 而 中 止 。 


2. 10.3 小 结 


在 前 面 的 几 节 中 ， 我 们 已 经 涵盖 了 很 多 材料 。 关 于 随机 变量 的 介绍 提供 了 用 于 对 真实 数 
据 与 我 们 提出 的 决定 性 模型 之 间 误 差 模 建 的 最 基本 理论 。 通 过 显 式 地 对 这 些 误差 模 建 ， 我 们 
已 经 发 现 ， 如 果 将 数据 噪声 假设 为 一 种 正 态 分 布 ， 那么 第 1 章 所 说 的 最 小 二 乘 解 将 如 何 与 最 
大 似 然 值 相同 。 使 用 似 然 法 的 优点 是 能 够 定量 参数 估计 的 不 确定 性 ， 进 而 估计 预测 的 不 确定 
性 。 这 就 让 我 们 能 够 从 准确 的 预测 值 〈( 这 一 定 是 错误 的 ) 转变 成 一 定 范围 的 值 ( 如 zis 土 
0 )。 在 很 多 应 用 中 ， 这 将 更 加 有 用 。 最 后 ， 我 们 关注 最 大 似 然 参 数 的 一 些 理论 特性 ， 并 发 
现 尽管 我 们 的 估计 值 双 是 无 偏 的 ， 但 平均 来 看 ， 灾 是 有 偏 的 ， 非 常 低 。 


2.11 练习 
EX 2.1 100 米线 性 回归 〈 见 图 2-1) 的 误差 模型 会 是 离散 或 连续 随机 变量 的 最 佳 模 型 吗 ? 
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EX 2.2 ”如果 遵 循 这 样 的 事实 ， 当 掷 仍 子 时 ， 所 有 结果 具有 相同 的 概率 ， 使 用 式 (2-1) 与 式 (2-2) 所 给 
的 限制 条 件 ， 计 算 蜗 子 6 个 面 每 一 面 朝 上 的 概率 。 
EX 2.3 Y 是 一 个 能 取 任 意 正 整数 的 随机 变量 ,其 结果 的 似 然 值 用 泊 松 概率 密度 函数 给 出 


es 
p(y) = yt exp A} 


如 果 遵 循 这 样 的 事实 ， 对 于 一 个 离散 随机 变量 ， 概 率 密度 函数 给 出 了 每 个 事件 的 概率 且 这 些 概 率 

是 可 加 性 的 。 

(a) 计算 4=5 时 ，Y<4 的 概率 ， 即 P(Y 委 4) 。 

(b) 利用 (a) 的 结果 且 有 一 个 结果 已 经 发 生 ， 计 算 Y>4 的 概率 〈 提 示 ，Y 委 4 和 Y 之 4 中 有 一 个 
事件 已 经 发 生 ) 。 


EX 2. 4 立 是 一 个 正 态 密度 的 随机 变量 ，z(y) 王 U(ae，p0)， 得 到 Eco {sin(y)}。 注 意 ， |sincway 一 一 cos(y) 。 


当 a 一 0, 6 二 1 时， 计算 Ep {sin(y))。 修 改 approx expexted value.m 来 计算 该 值 基于 抽 
样 的 近似 值 并 观察 该 近似 值 如 何 随 着 抽样 数量 的 改变 而 改变 。 

EX 2.5 假设 p(w) 是 式 (2-28) 所 示 的 DD 维 向 量 w 的 高 斯 密度 概率 。 通 过 展开 向 量 定义 公式 并 重 写 , 证 
明 互 一 玫 工 是 协 方差 矩阵 ， 假 设 w 的 DD 个 元 素 之 间 是 独立 的 。 你 需要 注意 的 是 ， 只 有 对 角 元 素 矩 
阵 (oe* 了 的 决定 性 因素 是 其 对 角 值 与 通过 颠倒 对 角 元 素 而 构建 的 矩阵 的 反 向 乘积 (提示 ， 指 数 的 


乘积 可 以 表示 成 指数 的 和 ) 。 
EX 2.6 利用 与 EX 2.5 相同 的 设置 ， 看 看 如 果 我 们 使 用 对 角 线 上 具有 不 同 元 素 的 对 角 协 方差 矩阵 ， 将 会 发 
生 什么 ， 即 
oo 0 0 
0 os 
三 一 
0 0 ae 号 
EX 2.7 证 明 对 于 1 阶 多 项 式 ， 对 数 似 然 值 的 2 阶 导数 的 Hessian 矩阵 等 于 式 (1-9) 的 2 阶 导数 (它们 的 
不 同 只 是 乘 以 不 同 的 常数 ) 。 ， 
EX 2.8 假设 具有 NN 个 值 的 数据 集 x;，z;，x3，…，xzw 来 源 于 高 斯 分 布 的 抽样 。 假 设 数据 是 ID， 找 出 高 


斯 均值 和 方差 的 最 大 似 然 估 计 (提示 ， 从 写 出 N 个 数据 点 的 联合 似 然 开 始 ， 并 注意 指数 函数 的 乘 
积 可 以 写成 指数 函数 的 指数 和 形式 )。 

EX 2.9 假设 一 个 具有 NN 个 二 元 值 数据 集 zx!，z。，Zz3，…，Zzy 来 源 于 伯 努 利 分 布 的 抽样 。 计 算 伯 努 利 参 
数 的 最 大 似 然 估计 。 

EX 2. 10 求 具有 NN 个 观测 值 x1，zxs，z3，…，Zzw 的 多 元 高 斯 密度 的 均值 和 协 方差 矩阵 的 最 大 似 然 估 计 。 

EX 2. 11 证 明 在 线性 模型 中 ， 品 声 方差 的 最 大 似 然 估 计 


发 三 方 Ce 一 1X 份 ) 


可 以 写成 


(提示 : 从 第 二 个 表达 式 反 向 计算 ) 

EX 2. 12 使 用 predictive variance example.m 生成 一 个 数据 集 ， 并 删除 所 有 一 1. 55 
1.5 的 值 。 分 析 这 样 做 对 预测 值 方差 范围 的 影响 。 

EX 2. 13 计算 伯 努 利 分 布 参数 的 费 舍 尔 信息 矩阵 。 

EX 2. 14 计算 多 元 高 斯 密度 中 均值 矩阵 的 费 舍 尔 信息 矩阵 。 
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最 大 似 然 值 的 一 个 有 趣 应 用 。 这 里 ， 将 它 应 用 到 概率 方法 中 ， 第 一 概率 方法 是 主 成 分 分 析 的 经 


典 统 计 问 题 。 
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机 器 学 习 的 贝 叶 斯 方法 


在 前 面 的 章节 中 ， 讲 到 显 式 地 在 模型 中 增加 噪声 允许 我 们 不 只 是 完成 点 预测 。 特 别 是 能 
够 量化 参数 估计 和 后 续 预 测 过 程 中 的 不 确定 性 。 一 旦 在 参数 估计 中 考虑 不 确定 性 ， 将 参数 本 
身 作 为 随机 变量 只 et dbad ld da dd nn 
介绍 许多 人 在 这 一 领域 发 现 的 挑战 问题 。 本 章 首 先 通 过 两 个 例子 介绍 贝 叶 斯 统计 的 一 些 基 本 
OA GO rR 在 第 4 章 中 ， 将 会 介绍 机 器 学 
习 领 域 中 流行 的 三 个 近似 方法 。 


3.1 硬币 游戏 





设想 你 漫步 在 露天 市 场 上 ， 经 过 一 个 货 摊 ， 这 里 的 顾客 正在 参与 一 个 投 币 游戏 。 Es 
为 每 个 顾客 投 10 次 人 硬币。 如 果 硬 币 正面 朝 上 的 次 025 


镑 和 额外 收益 的 1 镑 。 如 果 硬币 正面 朝 上 的 次 数 大 “02 
于 6 次 ， 则 货 摊 主 要 收益 顾客 押 注 的 1 美元 。 二 项 
分 布 ( 见 2. 3. 2 节 ) 描述 了 在 N 次 二 值 事 件 中 出 现 会 
一 定 次 数 成 功 〈 正 面 朝 上 ) 的 概率 。 假 设 每 次 投 硬 “|| 
币 正面 朝 上 的 概率 为 >， 则 投 N 次 硬币 有 y 次 正面 


货 捧 
7 

数 等 于 或 者 小 于 6 次 ， 则 该 顾客 收益 自己 押 注 的 1 | 
| 











朝 上 的 概率 为 : 0.05| 
Pl(Y = y) = (an (3-1) 0 
> 0 1 和 6 六 二 本 尊 
假设 硬币 是 公平 的 ， 因 此 设 * 王 0.5。 当 N= 二 10 时 ， 
Y 的 概率 分 布 函 数 如 图 3-1 所 示 ， 其 中 阴影 部 分 对 图 3-1 当 N=10、r=5 时 的 
应 y 委 6。 利 用 式 (3-1) 可 以 计算 出 赢得 游戏 的 概 二 项 密度 函数 ( 式 (3-1)) 


率 ， 也 就 是 Y 小 于 或 者 等 于 6 的 概率 P(Y<6): 
Pl(Y<6)=1—P(Y>6)=1—[P(Y=7)+P(Y = 8)+P(Y = 9)+P(Y = 10)] 
一 1 一 [0.1172 十 0.0439 十 0.0098 十 0.0010] 
= 0.8281 
这 看 起 来 是 一 个 很 好 的 游戏 ， 你 将 以 0. 8281 的 概率 使 你 的 钱 翻 倍增 长 。 你 也 可 以 计算 从 这 
个 游戏 中 获 益 的 期 望 值 。 随 机 变量 X 的 函数 了 A(X) 的 期 望 值 可 以 如 下 计算 ( 见 2. 2. 8 节 ): 
Ep (大 (X)) = ZJCzPCz) 


其 中 要 在 随机 变量 的 所 有 可 能 取 值 上 计算 和 。 设 是 一 个 随机 变量 ， 如 果 我 们 (顾客 ) 赢 
了 ,， 则 和 取 值 为 1; 否则， 取 值 为 0。 显 然 ，PCX=1)=P(Y 过 6) 。 如 果 我 们 赢 了 (X=1)， 
我 们 获得 2 镑 (我 们 自己 的 1 镑 加 上 额外 收益 的 1 镑 ) ， 因 此 f(1) 二 2。 如 果 我 们 输 了 ， 我 
们 什么 也 没有 获得 ， 因 此 f(0) 二 0。 我 们 收益 的 期 望 值 为 : 

f(D DP(X=1)+f(0 P(X=0)=2XxXP(Y<6)+0XxXP(YS>6)= 1.6562 
如 果 你 花 了 1 镑 参与 游戏 , 平均 情况 下 你 每 场 游 戏 获得 (1. 6562 一 1) 镑 ,差不多 66 便士 。 
如 果 你 玩 了 100 次 ， 则 你 可 以 获得 65. 62 镑 的 收益 。 
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给 了 你 这 样 的 机 会 ， 似 乎 应 该 要 玩 的 。 然 而 ， 等 一 会 你 就 会 注意 到 货 摊 主 看 起 来 很 有 理 
由 富有 并 且 只 有 少数 顾客 看 起 来 能 够 获胜 。 也 许 计 算 的 假设 是 错误 的 。 之 前 我 们 的 假设 
包括 : 

1) 正面 朝 上 的 次 数 是 一 个 符合 二 项 分 布 的 随机 变量 ， 并 且 投 一 次 硬币 正面 朝 上 的 概率 
为 。 

2) 硬币 是 公平 的 ， 也 就 是 正面 朝 上 的 概率 等 于 背面 朝 上 的 概率 ， 即 ”一 0. 5。 
看 起 来 很 难 和 否定 二 项 分 布 ， 因 为 事件 确实 只 有 两 种 可 能 的 结果 并 且 每 次 投 币 都 是 独立 的 。 那 
么 就 只 剩 下 ~ (正面 朝 上 的 概率 ) 了 。 我 们 假设 硬币 是 公平 的 ， 即 正面 朝 上 和 背面 朝 上 的 概 
率 是 相同 的 。 也 许 不 是 这 种 情况 呢 ? 为 了 对 此 进行 研究 ， 我 们 把 > 当成 一 个 参数 〈 像 前 面 章 
节 的 w 和) 拟 合 到 某 些 数据 上 。 


3. 1.1 计算 正面 朝 上 的 次 数 


假设 在 玩 游戏 的 队伍 里 有 3 个 人 。 第 一 个 人 玩 游戏 并 且 获 得 如 下 的 正面 和 背面 序列 
和 天 H, 且 ， 旦 ， 用 了 H, H, H 
9 个 正面 朝 上 、1 个 背面 朝 上 。 这 时 我 们 可 以 按 如 下 方式 计算 7 的 最 大 似 然 值 。 二 项 分 布 的 
似 然 值 定义 为 : 


PlY = 3 | wsN) = Yl (3-2) 
取 自 然 对 数 得 : 
L= ,log P(Y = y|r,N) = log( © ) 十 ylogr 十 (CN 一 y)log(1 一 7) 


像 第 2 章 一 样 ， 对 这 个 表达 式 求 微分 ， 令 它 等 于 0， 求 参数 的 最 大 似 然 值 估计 值 : 
DL y N=y __ 0 
Or r 下 一 六 


y(l—7)= r(N— y) 
y 一 7rN 
也 


FT 


N 
将 y 二 9、N= 二 10 代入 ， 得 r+ 二 0. 9。 相 应 的 分 布 函 数 如 图 3-2 所 示 ， 重 新 计算 顾客 获胜 的 概 
率 为 P(Y<6) 二 0.0128。 这 远 远 低 于 r==0.5 时 的 值 。 此 时 收益 的 期 望 值 为 : 
2xP(Y<6)+0xP(Y>6) = 0.0256 
如 果 你 花 了 1 镑 参与 游戏 ,平均 情况 下 每 场 游 0.4 
戏 你 获得 0. 0256 一 1 二 一 0. 9744 镑 ， 差 不 多 损 035 
失 97 便士 。P(Y 委 6) 王 0.0128 表明 ， 每 100 03 
个 人 里 只 有 1 个 人 能 赢 ， 但 这 似乎 没有 反映 出 0.25 
获胜 的 人 数 。 虽然 这 次 投 硬币 的 情况 表明 写 02 
r 二 0.9， 但 它 看 起 来 有 点 极端 了 ， 因 为 有 几 个 0.15 











人 已经 闭 了 。 0.1 
3. 1.2 贝 叶 斯 方法 0.05 
0 
上 一 节 中 ， 我 们 计算 ~ 的 值 是 基于 10 次 投 0 
币 。 考 虑 到 投 币 具有 随机 特性 ， 如 果 我 们 观察 图 32 当 和 =10、 z+ 一 0.9 调 的 


多 个 投 币 序列 ， 我们 每 次 都 可 能 获得 不 同 的 x 二 项 分 布 函数 ( 式 (3-1)) 
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值 。 考 虑 这 种 情况 ,r 感觉 有 点 像 一 个 随机 变量 R。 也 许 我 们 能 学 到 一 些 关 于 R 的 分 布 而 不 
是 寻找 一 个 特定 的 值 。 在 前 一 节 中 ， 我 们 看 到 通过 计算 获得 的 具体 值 严重 受到 短 序列 中 特定 
投 币 的 影响 。 不 管 这 样 的 序列 有 和 多少， 我 们 发 现 的 值 总 是 不 确定 的 ， 把 7 考虑 为 与 一 个 与 
分 布 相关 联 的 随机 变量 将 有 助 于 我 们 度量 和 理解 这 种 不 确定 性 。 

尤其 是 ， 定 义 随 机 变量 Y 为 N 次 投 币 中 正面 朝 上 的 次 数 ， 我 们 能 够 计算 -在 Yv 上 的 


条 件 分 布 : 

plrlyn) 
给 定 了 该 分 布 ， 我 们 可 以 通过 计算 POY 三 617) 关 于 p(r|yn) 的 期 望 值 来 获得 顾客 赢 的 期 
望 概率 : 


PY es 6 | yy) = | <6ln plrlyn)dr 


其 中 Y, 是 描述 在 未 来 10 次 投 币 中 正面 朝 上 次 数 的 随机 变量 。 
在 2.2.7 节 中 我 们 简单 介绍 了 贝 叶 斯 规则 。 贝 叶 斯 规则 允许 我 们 颠倒 两 个 随机 变量 的 条 
，| 件 ， 也 就 是 从 pbb1a) 计算 pla15)。 这 里 我 们 感 兴趣 的 是 PCr|yw)， 如 果 我 们 颠倒 条 件 ， 
98 | 就 是 pCyx1r) 一 一 在 NN 次 投 币 中 正面 朝 上 的 次 数 ， 其 中 一 次 投 币 中 正面 朝 上 的 概率 为 x。 
这 就 是 二 项 分 布 函数 ， 对 任意 的 yx 和 +， 我 们 可 以 很 容易 计算 。 在 上 下 文中 ， 贝 叶 斯 规则 
为 〈 见 式 (2-11)): 


PCyN |7) pC7) 
Plyn) 


这 个 公式 在 后 面 的 章节 中 是 非常 重要 的 ， 因 此 需要 读者 花 点 时 间 详 细 地 理解 这 个 公式 。 
似 然 值 PCyx | r): 在 第 2 章 中 我 们 介绍 了 似 然 。 这 里 它 具 有 相同 的 意义 : 对 一 个 特定 
的 r+ 值 (我 们 的 模型 )， 我 们 观察 到 数据 (在 这 035 
种 情况 下 ， 数 据 是 yw) 的 可 能 性 。 如 果 产生 
yw 的 可 能 性 大 ， 则 似 然 值 高 ;否则 ， 似 然 值 
低 。 例 如 ， 图 3-3 给 出 了 两 个 不 同 场景 下 > 与 
似 然 值 PCyx |r) 的 函数 关系 。 在 第 一 个 场景 
下 ， 数 据 包 含 10 次 投 币 (N= 二 10)， 其 中 6 次 
正面 朝 上 。 在 第 二 个 场景 下 ， 投 币 次 数 为 100， 0.1 
正面 朝 上 的 次 数 为 70。 008 
图 3-3 揭示 了 似 然 值 的 两 个 重要 属性 。 首 
先 ， 它 不 是 概率 密度 。 如 果 是 概率 密度 ， 则 两 0 l 





plrlyn) = (3-3) 






y=70,N=100 | 


yw=6, N=10 





个 曲线 下 面 的 面积 将 等 于 1。 我 们 可 以 看 到 两 图 3-3 第 二 个 场景 中 似 然 值 
个 图 的 面积 是 完全 不 同 的 ， 所 有 根本 不 会 为 1。 plyn |>) 与 + 的 函数 关系 


其 次 ， 这 两 个 场景 告诉 我 们 7 值 的 范围 是 不 同 
的 。 在 第 一 个 场景 下 , 7 较 大 范围 (大 约 为 0. 2 和 ”和 0.9) 内 似 然 值 不 为 0。 第 二 个 场景 下 ， 
似 然 值 不 为 0 的 区 域 减少 了 很 多 (大 约 为 0.6 三 r 壹 0.8)。 显 然 ， 在 第 二 个 场景 下 ， 我 们 有 
较 多 的 数据 ( 投 币 次 数 为 100 而 不 是 10) ， 因 此 我 们 能 够 知道 更 多 的 > 值 。 

先 验 分 布 p(r): 先 验 分 布 允许 我 们 在 没有 看 到 任何 数据 之 前 表达 我 们 认为 ~ 值 是 多 少 。 

为 了 说 明 这 点 ， 我 们 考虑 下 面 的 3 个 实例 。 

1) 我 们 不 知道 任何 关于 投 币 和 货 摊 主 的 信息 。 

2) 我 们 认为 硬币 〈 因 此 货 摊 主 ) 是 公平 的 。 

3) 我 们 认为 硬币 〈 因 此 货 摊 主 ) 倾向 于 正面 朝 上 。 
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我 们 可 以 将 这 些 信 和 念 编码 为 不 同 的 先 验 分 布 。r 可 以 在 0 和 1 之 间 任 意 取 值 ， 因 此 必须 
将 模型 化 为 一 个 连续 随机 变量 。 图 3-4 给 出 了 三 个 密度 函数 ,分 别 用 于 对 三 个 不 同 的 先 验 信 
念 进行 编码 。 

言 念 1 表示 为 0 和 1 之 间 的 均匀 密度 ， 也 就 
是 对 任意 7 值 没 有 任何 偏向 。 信 和 念 2 给 出 了 一 个 
在 r 二 0.5 时 达到 最 大 值 的 密度 函数 ， 该 值 表明 
我 们 期 望 硬币 是 公平 的 。 该 密度 表明 我 们 不 希 
望 r+ 有 太 多 的 不 同 , r 值 几乎 都 在 0.4 一 0.6 之 
间 。 我 们 投 的 大 多 数 硬币 都 遵循 信念 2。 最 后 ， 
信念 3 认为 硬币 〈 货 挫 主 ) 是 有 偏 的 。 该 密度 表 
明 r 大 于 0.5,， 并 且 具 有 很 大 的 不 同 。 这 是 最 好 
的 ， 因 为 我 们 的 信念 是 硬币 是 有 偏 的 : 在 该 阶 
段 还 没有 认识 到 结果 偏 倚 的 程度 。 图 3.4 三 个 不 同 场景 对 7 的 先 验 密度 p(r) 示例 

在 该 阶段 ,我 们 不 从 3 个 场景 中 进行 选择 ， 
因为 看 看 这 些 不 同 信念 对 p(r|ynx) 的 影响 是 很 有 趣 的 。 

图 3-4 中 三 个 函数 的 绘制 并 不 是 凭空 捏造 〈 子 虚 乌 有) 的 。 它 们 都 是 8 概率 密度 函数 
( 见 2.5.2 节 ) 的 实例 。8 概 率 密 度 函 数 用 于 连续 随机 变量 ， 取 值 范围 在 0 和 1 之 间 ， 非 常 适 
合 我 们 的 实例 。 将 具有 参数 a 和 有 的 随机 变量 R 定义 为 : 

p(7) = er (3-4) 
T(a) 是 7 函数 〈 见 2.5.2 节 )。 在 式 (3-4) 中 ，7y 函数 保证 密度 是 标准 化 的 (也 就 是 ， 它 
合并 为 1 并 且 是 一 个 概率 密度 函数 )。 尤 其 是 ， 


r=1 
Te Ee | r”! CT ee 7-)8 1 dr 
CQ 7 一 0 





保证 了 


r 一 1 
| TlatB) et- 天 ar 


-=oTCx)FC9) 

参数 a 和 8B 控制 最 终 密度 函数 的 形状 ， 并 且 都 是 正 的 。 图 3-4 显示 的 三 个 信念 对 应 于 如 下 的 
参数 值 : 

1) 什么 也 不 知道 : we 二 1，p 一 1。 

2) 公平 的 硬币 : a 二 50，pB 二 50。 

3) 有 偏 的 : a 二 5，B 二 1。 
这 些 值 的 选择 问题 是 一 个 大 问题 。 例 如 ， 为 什么 我 们 为 有 偏 的 硬币 选择 a 二 5、pB 二 1 呢 ? 
这 不 太 容 易 回 答 。 后 面 我 们 将 看 到 beta 分 布 可 以 解释 为 一 些 以 前 假设 的 硬币 投掷 。 对 于 其 
他 分 布 ， 类 似 情况 是 不 可 能 的 ， 我 们 将 引入 这 样 的 概念 : 也 许 这 些 也 应 该 看 成 是 随机 变量 。 
与 此 同时 ， 我 们 假设 这 些 值 是 合理 的 。 

yy 的 边缘 分 布 PCyw): 我 们 公式 里 的 第 3 个 量 PCyw) 作为 一 个 标准 化 的 常量 用 于 保证 
pl(r|lyn) 是 一 个 合理 的 密度 。yw 的 边缘 分 布 是 众所周知 的 ， 因 为 它 是 通过 联合 密度 
Plyw，7) 结 合 r 计算 出 来 的 : 


Plyy = | pw rar 
联合 密度 可 以 分 解 为 : 
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7 一 1 
PCyN) = | Plyn |r) plr)dr 


是 先 验 和 似 然 乘 积 在 > 的 取 值 范围 内 的 积分 。 

PCyw) 也 称 为 边缘 似 然 值 ， 因 为 它 是 对 所 有 参数 值 取 平 均 后 数据 y 的 似 然 值 。 在 
3. 4. 1 节 中 我 们 将 看 到 它 是 模型 选择 中 一 个 有 意义 的 量 ， 但 不 幸 的 是 ， 除 了 极 少数 情况 外 ， 
它 是 很 难 计算 的 。 

后 验 分 布 p(r|yw): 后 验 是 我 们 感 兴趣 的 分 布 。 它 是 根据 新 的 证 据 yx 更 新 先 验 信念 
p(7) 的 结果 。 密 度 的 形状 是 很 有 趣 的 一 一 它 告 i 
我 们 结合 了 已 经 知道 的 知识 〈 先 验 ) 和 观察 到 的 
知识 〈 似 然 ) 之 后 ， 我 们 知道 多 少 > 的 信息 。 图 
3-5 给 出 了 三 个 假设 的 示例 〈 这 些 都 是 纯粹 说 明 ”~ 
性 的 ， 并 不 对 应 图 3-3 和 图 3-4 中 特定 的 似 然 值 ” 评 
和 先 验 示例 )。 (a) 是 均匀 的 一 一 将 似 然 值 和 先 
验 结合 使 + 的 所 有 值 是 等 可 能 的 。(b) 表明 r 开 1 
始 较 小 然后 变 大 ， 这 可 能 是 开始 的 先 验 知 识 是 的 | ”一 一 一 
匀 的 ， 然 后 观察 到 更 多 的 反面 而 不 是 正面 。〈c) 0 02 04 ,06 08 1 
表明 硬币 倾向 于 正面 朝 上 。 因 为 这 是 密度 ， 所 以 
后 验 不 是 告诉 我 们 哪个 值 是 可 能 的 ， 而 是 提供 当 
有 了 这 些 观察 数据 后 我 们 对 > 不 确定 程度 的 信息 。 


r=1 
Ewss {PY < 6)) = | POY < 617)pCr |yw)dr 


我 们 将 会 获得 概率 的 期 望 值 。 考 虑 我 们 已 经 观察 到 的 数据 和 我 们 的 先 验 信念 及 保持 的 不 确定 
性 。 这 将 有 助 于 我 们 决定 是 否 参与 游戏 。 我 们 后 面 讨论 这 个 问题 ， 现 在 我 们 看 看 在 硬币 示例 
中 获得 的 后 验 密 度 的 类 型 。 


3.2 精确 的 后 验 


当 似 然 值 是 二 项 分 布 时 ，8 分 布 是 先 验 的 通常 选择 。 这 是 因为 可 以 用 一 些 代数 来 精确 地 
计算 后 验 密度 。 事 实 上 ， 8B 分布 是 二 项 似 然 值 的 共 思 e 先 验 〈( 见 注解 3. 1) 。 如 果 先 验 和 似 然 是 
共 示 的 ， 后 验 将 和 先 验 具有 相同 的 形式 。 具 体 地 ，p(r|yn) 将 给 出 一 个 B 分 布 ， 参数 8 和 7 
的 值 从 先 验 和 yx 中 计算 得 到 。B 分 布 和 二 项 分 布 不 是 唯一 的 共 纯 对 ， 在 本 章 奥运 会 数据 中 
将 会 看 到 其 他 的 先 验 和 似 然 匡 对 。 


注解 3. 1 ( 共 轿 先 验 ): 似 然 - 先 验 对 是 共 轿 的 ， 如 果 后 验 与 先 验 
具有 相同 的 形式 。 这 使 我 们 能 够 分 析 计 算 后 验 密度 ， 而 不 用 关心 
计算 贝 叶 斯 规则 的 分 母 和 边缘 似 然 值 。 下 表 给 出 了 一 些 常用 的 共 
斩 对 。 





图 3-5 三 个 可 能 后 验 分 布 pC(r|yn) 的 示例 

















从 数学 的 观点 看 ， 使 用 共 斩 先 验 使 得 事情 变 得 更 加 容易 。 然 后 ， 正 如 我 们 在 第 1 章 讨论 损失 
函数 和 第 2 章 讨论 的 噪声 分 布 那样 ， 将 我 们 的 选择 基于 模型 假设 比 基 于 数学 方法 更 重要 。 在 
第 4 章 中 ， 我 们 将 会 看 到 一 些 用 于 不 是 共 生 通常 场景 中 的 技术 。 
回 到 我 们 的 例子 ,将 p(yv) 从 式 (3-3) 中 删除 ， 得 : 
plrlyn) cc Plyn |r)plr) 
用 二 项 分 布 和 beta 分 布 代替 右边 的 项 ， 得 : 
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Np 十 次 加 
pcrlys) oo | (> )r (CL zy |* [mr (1—7) | (3-5) 


因为 先 验 和 似 然 是 共 轿 的 ， 所 以 我 们 知道 p(r|yn) 一 定 是 beta 密度 。 具 有 参数 86 和 7 的 
beta 密度 具有 下 面 的 通用 形式 : 

WY SS Kr (LS 
其 中 是 一 个 常量 。 如 果 我 们 可 以 将 包括 7 在 内 的 所 有 项 移 至 式 (3-5) 的 右 侧 使 其 看 起 来 
像 ”' (1 一 r)”'， 那么 能 够 确定 这 一 常量 的 正确 性 ( 它 必须 是 (6 十 7Y)/T(6)T(Y))， 因 为 我 
们 知道 后 验 密度 是 8 密度 。 另 一 方面 ， 我 们 知道 8 密度 的 标准 化 常量 ， 所 以 我 们 没有 必要 计 
算 p(yn)。 重 新 组 织 式 (3-5) ， 得 : 


N\ Tl(atpB) | 
plrlyn)oc [G5,) Pet | X [rr em 1 ar) 


Ey 
Se tl 

其 中 6== yn 十 a， YN 一 

因此 


Te 十 8 十 从 ) 
Ta 十 3 二 太一 9 


(注意 当 增 加 > 和 有 8 后 ，yw 项 就 取消 了 )。 这 就 是 基于 先 验 p(r) 和 数据 yn 的 ~ 的 后 验 密度 。 
注意 后 验 参 数 是 怎么 计算 的 ， 通 过 给 第 一 个 参数 a 增加 正面 的 数量 (y,)、 给 第 2 个 参数 B 
增加 背面 的 数量 (N 一 yx)。 这 人 允许 我 们 获得 一 些 关于 先 验 参数 a 和 有 的 直觉 一 一 它们 可 以 
看 做 是 在 a 十 8 投 币 中 正面 朝 上 和 背面 朝 上 的 次 数 。 例 如 ， 考虑 前 一 节 讨 论 的 第 二 个 场景 。 
对 于 公平 的 硬币 场景 ,a 二 8B 二 50。 这 等 价 于 投了 100 次 硬币 ,正面 朝 上 和 背面 朝 上 的 次 数 都 
是 50。 对 于 有 偏 的 场景 ,a 一 5、B 一 1， 对 应 着 6 次 投 币 有 5 次 正面 朝 上 。 图 3-4 有 助 于 我 们 
解释 两 个 密度 表明 的 不 同 变化 层次 : 公平 投 币 密度 相对 于 有 偏 投 币 具有 较 小 的 变化 ， 因 为 它 
是 较 多 假设 投 币 的 结果 。 投 币 次 数 越 多 ， 我 们 对 r 知道 得 就 越 多 。 

类 推 是 不 完美 的 。 例 如 ,a 和 8B 不 一 定 是 整数 ， 可 以 是 小 于 1 的 数 (0.3 正面 朝 上 没有 
任何 意思 )。 当 a==B==1 时 ， 类 推 也 是 不 对 的 。 观 察 到 一 次 正面 朝 上 和 一 次 背面 朝 上 表明 ”一 
0 和 r==1 是 不 可 能 的 。 然 而 ， 图 3-4 的 密度 1 表明 > 的 所 有 取 值 是 等 可 能 的 。 尽 管 有 这 些 不 
足 ， 但 类 推 是 需要 记 住 的 ， 因 为 我 们 是 通过 分 析 前 进 的 〈 见 练习 EX 3.1、EX 3.2、EX 3. 3 
和 EX 3. 4)。 


YN 三 人 | 因 )PHN- yy (36 103 





力 (r|yN) = 


3.3 三 个 场景 


我 们 现在 研究 图 3-4 给 出 的 三 个 不 同 场景 的 后 验 分 布 bpCr|yw)， 分 别 为 没有 先 验 知识 
公平 的 投 币 和 有 偏 的 投 币 。 


3.3.1 没有 先 验 知识 


在 这 个 场景 中 (MATLAB 脚本 : coin scenariol.m)， 我 们 假设 我 们 不 知道 硬币 投 
掷 或 货 摊 主 的 信息 。 我 们 的 先 验 参 数 为 二 8 王 1， 如 图 3-6a 所 示 。 
为 了 比较 不 同 的 场景 ， 我 们 使 用 在 先 验 下 -~ 的 期 望 值 和 方差 。 具 有 参数 a 和 8 的 8 分布 
的 随机 变量 (密度 函数 表示 为 Bl(a，B)) 的 期 望 值 为 〈 见 练习 EX 3. 5) : 
plr)= Bla,pB) 





sa Q 
Ew (下 ) 一 了 
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先 验 3 投 搓 后 1 (H) 
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a) a=1, b=1 
3 投掷 后 2 (T) 投掷 后 3 (H) 
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R15 芝 1.5 
忆 六 
1 1 
0.5 0.5 
0 0 
0 02 04,06 08 1 0 07 04,06 08 
c) 6=2, y=2 d) 6=3, y=2 
投掷 后 4 (H) 投掷 后 10 (H) 




















2.5 
二 /到 
会 15 
人. 
Ta 
0.5 
V0 04,06 08 1 NE 
e) 6=4, y=2 f) 6=7, y=5 
图 3-6” 随 投 币 次 数 的 增加 p(r|yn) 的 变化 过 程 
对 场景 1: 
i 
E,., (R} ae 二 TB 2 
B 分 布 随 机 变量 的 方差 为 ( 见 练习 EX 3. 6) : 
Ce aB 7 
VA eg 
当 a 二 8 二 1 时 ， 有 
var(R} = 1 


12 
注意 ， 在 我 们 的 后 验 公 式 中 ( 式 (3-6))， 我 们 没有 限制 投 币 次 数 为 10 一 一 我 们 可 以 包 
含 任何 次 数 的 投 币 。 为 了 说 明 后 验 的 演变 ， 我 们 看 看 它 如 何 随 投 币 变 化 。 


一 个 新 顾客 交 出 了 1 镑 ， 货 摊 主 开始 投 币 。 第 一 次 投 币 结果 是 正面 朝 上 。 经 过 一 次 投 币 
后 ， 后 验 分 布 是 一 个 86 分布 ， 参数 6 二 a 十 yn、 y=PN= yg 


plrlyn) 一 如 0 7 
在 这 个 场景 中 ,a 二 8 一 1， 且 有 N=1 投 硬 币 ， 看 见 yx 一 1 次 正面 ， 

6 一 1 十 1 二 2 

y= 1+1 一 1=1 
图 3-6b 的 实 线 为 后 验 分 布 (虚线 为 先 验 分 布 )。 这 个 观察 有 相当 大 的 作用 一 一 后 验 非常 不 同 
于 先 验 。 在 先 验 中 , + 的 所 有 值 是 等 可 能 的 。 现 在 发 生 了 变化 一 一 零 密度 + 二 0 时 ， 高 值 比 
低 值 的 可 能 性 大 。 这 与 证 据 是 一 致 的 一 一 观察 到 一 个 正面 朝 上 使 得 > 取 大 值 的 可 能 性 高 于 > 
取 小 值 。 这 个 密度 仍然 是 比较 宽 的 ， 因 为 我 们 只 观察 了 一 次 投 币 。 后 验 下 7 的 期 望 值 为 : 
Ey) (R} =— 
同时 我 们 观察 到 ， 一 个 正面 朝 上 使 得 7 的 期 望 值 从 1/2 变 为 2/3。 后 验 的 方差 为 ( 见 
式 87 为。 





1 

18 : 
它 小 于 先 验 方差 (1/2)。 因 此 ,方差 的 减少 告诉 我 们 对 7 值 的 不 确定 性 正在 减少 (我 们 已 经 
学 到 了 一 些 ) ， 期 望 值 的 增加 告诉 我 们 正面 朝 上 比 背 面 朝 上 的 可 能 性 大 。 

货 摊 主 投 第 二 枚 人 硬币， 结果 为 背面 朝 上 。 我 们 已 经 看 到 一 个 正面 朝 上 和 一 个 背面 朝 上 ， 
因此 "N=2、 yN 一 1， 结果 为 : 


var{R} 


6 一 1 十 1 一 2 

7 二 1 十 2 一 1 二 2 
图 3-6c 中 的 实 线 给 出 了 后 验 分 布 。 轻 点 画 线 是 投 币 一 次 后 的 后 验 ， 虚 线 是 先 验 。 密 度 已 经 
再 一 次 变化 反映 了 新 的 证 据 。 因 为 我 们 已 经 观察 到 了 一 个 背面 朝 上 ， 所 以 r= 二 1 的 密度 应 该 
为 0(r 二 1 表示 硬币 总 是 正面 朝 上 )。 密 度 是 曲线 而 不 是 直线 (我 们 已 经 提 到 ,8B 密度 函数 是 
非常 灵活 的 )， 观 察 一 个 背面 朝 上 使 小 值 的 可 能 性 提高 了 。 期 望 值 和 方差 现在 为 : 


E,,,, {R} = 到 ,varfR) 一 区 
期 望 值 已 经 降 到 了 1/2。 假 设 先 验 的 期 望 值 也 是 1/2， 你 可 以 得 出 结论 : 我 们 没有 学 到 任何 
知识 。 然 而 ,方差 也 降低 了 (从 1/18 到 1/20) ， 因 此 > 的 不 确定 性 降低 了 ， 已 经 学 到 了 一 些 
知识 。 实 际 上 ， 学 到 > 比 先 验 中 假设 的 更 接近 1/2。 
第 3 次 投 币 结果 为 正面 朝 上 ， 这 时 我 们 有 N= 二 3、yw 二 2、N 一 yn 二 1 次 背面 朝 上 。 我 们 
更 新 后 验 参 数 为 ， 








0 一 2 十 yn 三 1 证 2 二 3 

7= BTN= yy 三 1+3—1=2 
图 3-6d 描绘 了 后 验 。 后 验 是 实 黑 线 ， 以 前 的 后 验 是 实 轻 线 ， 虚 线 为 先 验 。 我 们 注意 到 ,第 2 
次 正面 朝 上 的 观察 效果 使 密度 向 右 偏 了 ， 表 明正 面 朝 上 的 可 能 性 高 于 背面 朝 上 。 显 然 这 与 观 
察 是 一 致 的 一 一 我 们 看 过 的 正面 比 背面 多 。 我 们 只 看 了 3 个 硬币 ， 然 而 这 仍然 存在 很 高 的 不 
确定 性 ， 密 度 表明 7 可 以 取 0 一 1 内 的 很 多 值 。 新 的 期 望 和 方差 为 : 


3 1 
Ey (R} = 5'vartR)} 一 二 


方差 又 一 次 减 小 ， 表 明 随 着 观察 数据 的 增多 不 确定 性 减 小 。 

第 4 次 投 币 也 是 正面 (mn=35 N=4), 则 6 a 十 yn 二 1] 十 3 二 4, 7 B+N yn 三 1 十 4 
一 3 二 2。 图 3-6e 给 出 了 以 前 和 现在 的 后 验 和 先 验 。 密 度 又 一 次 向 右 偏 一 一 我 们 现在 看 到 3 
次 正面 、 一 次 背面 ， 因 此 这 看 起 来 好 像 ”大 于 1/2。 注 意 N=3 的 后 验 和 N=4 的 后 验 r 取 
非常 小 的 值 时 的 差别 ， 这 次 正面 使 我 们 想到 ~ 不 会 等 于 或 小 于 0. 1。 期 望 值 和 方差 为 : 
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区 2 
E,.,,, {RK} = 5,var{R)} = = 0 OBL? 


其 中 期 望 值 增 大 了 ,方差 再 一 次 减 小 。 其 余 6 次 投 币 完成 后 ， 整 个 投 币 序列 为 : 

H, T, H, H, H, H, T, T, T,; H 
6 个 正面 、4 个 背面 。 当 N 一 10、yw 王 6 时 ， 后 验 分 布 参数 为 : 6 二 a 十 yn 二 1 十 6 二 7、7yY 二 Bb 十 
N 一 yx 二 1 十 10 一 6 二 5。 该 分 布 和 N=9 时 的 后 验 如 图 3-6f 所 示 。 期 望 值 和 方差 为 : 








Ey, (R} = = 0.,5833;var{R} 三 0.0187 (3-8) 


0.06 





0.05 


0.04 


Et{r} 
var{r} 


0.03 





0.02 











COL 4 6 8 10 


投 币 
b) 随 投 币 次 数 的 变化 





图 3-7 ”参数 的 期 望 


经 过 10 次 观察 ， 期 望 值 从 0. 5 增加 到 了 0. 5833 ， 方 差 从 1/12 二 0. 0833 减 小 了 0. 0187。 
然而 ， 这 并 不 是 整个 故事 。 观 察 图 3-6f， 我 们 看 到 并 非常 确定 > 六 0.2 且 过 0.9。 这 时 > 的 
不 确定 性 还 很 高 的 ， 因 为 我 们 只 观察 了 10 次 投 币 。 

图 3-7 总 结 了 期 望 值 和 方差 随 着 10 次 观察 的 变化 。 期 望 值 变化 较 小 ， 而 方差 随 着 信息 
的 增多 稳步 减 小 。 在 第 7 次 投 币 时 ,方差 增加 。 最 初 的 7 次 投 币 为 : 

H, T, H, H, H, H, T 
当 第 6 次 投 币 结束 时 ， 有 5 次 正面 、 一 次 背面 ， 这 表明 正面 的 可 能 性 大 于 背面 。 第 7 次 出 现 
的 背面 是 不 希望 的 。 图 3-8 给 出 了 第 7 次 前 和 后 的 后 验 。 反 面 事件 导致 密度 函数 增加 > 取 小 
值 的 似 然 ， 因 此 增加 了 不 确定 性 。 

后 验 密度 概括 了 所 有 的 信息 。 简 单 3 ， 找 交 后 7 CT 
地 说 ， 我 们 使 用 它 来 计算 游戏 获胜 的 期 望 
概率 。 在 做 这 之 前 ， 我 们 将 重新 回 到 使 用 
点 估计 的 想法 ， 从 密度 中 提取 -~ 的 单个 值 
六 。 我 们 将 比较 获胜 的 期 望 概率 与 从 7 的 
单个 值 计算 出 的 获胜 的 概率 。 一 个 合理 的 
选择 是 使 用 E,,| ,,{R}。 有 了 这 个 值 ， 我 
们 就 能 够 计算 获胜 的 概率 一 一 PCY 去 
6|7 了 )。 这 个 值 用 于 决定 是 否 玩 游 戏 。 注 意 
区 别 观察 的 投 币 和 未 来 的 投 币 ， 我 们 使 用 
随机 变量 Yo 来 描述 10 次 未 来 的 投 币 。 

10 次 投 币 后 ， 后 验 密 度 是 8 概率， 图 3-8 6 次 投 币 〈 虚 ) 和 7 次 投 币 ( 实 ) 的 后 验 








plrlyy) 








参数 GT pk 因此 ?为 : 


游戏 获胜 的 概率 为 : 


= 0 
= 0. 6586 
表明 我 们 获胜 的 可 能 高 于 失败 的 可 能 。 
使 用 所 有 的 后 验 信息 需要 计算 ， 
Essys {POYnew < 617)) 
重新 组 织 和 操作 期 望 ， 得 : 
Eywyy {PY S617)}= Ey (1— POY > 717))} (3-9) 
= 1— Ely CRY 7 |72} 
ee 1— Eros, { SD” P(e = iy | 站】 
区 


ne 10 


=1= >) Ey {PCOY,ew = oer |7)) 
» 
为 了 评估 它 ， 我 们 必须 能 够 计算 Es ,，{P(Y, 一 yew |7)。 根 据 期 望 的 定义 ， 得 : 


r=1 
Ey rlyn) { 忆 (Yev = .ynew | 7)} =| _,P Yr 一 .ynew | nplrlyn)dr 


Niew 3 TGS 十 7) 1 | 
er — rr) rr 
=| Ls 二 je Wz) "| | DT Cl) | 





r=1 
( Nw L(+ 7) po OAC Net (3-10) 


ee TO TO) 
这 个 式 子 看 起 来 有 点 让 人 旦 惧 。 然 而 ， 仔 细 观 察 式 子 中 的 参数 是 一 个 没有 标准 化 的 8 密度 ， 
参数 为 8 十 yw 和 7y 十 Nie 一 ywevw。 一 般 来 说 ， 参 数 为 c 和 8 的 B 密度 必须 满足 下 式 : 


tN Bl 
| | 








因此 : 
r 一 1 
1 ye el a LT'(a) TB) 
ls a 
我 们 的 期 望 值 变 为 : 
Niewy TCB+Y) TCO ys) TOY Noew — Ynew) 
Eee (PC = yr ln)} = ( ™) FCOTFC7) FS 十 y 十 Niw) 


对 一 个 特定 的 后 验 〈 也 就 是 ， > 和 6 的 值 ) 和 Nw 及 ywew 的 值 ， 可 以 很 容易 计算 上 式 。 
10 次 投 币 后 ， 我 们 有 6 二 7、7 二 5。 将 这 些 值 代入 ， 我们 能 够 计算 获胜 的 期 望 概率 : 


Ynew “19 


Eyo (PC < 617)}= 1— >) Ey (PC = yoew |7))} 


二 1 一 0.3945 
一 0. 6055 
比较 这 个 值 与 点 估计 的 值 ， 我 们 能 够 看 到 这 两 个 预测 都 是 获胜 的 机 会 大 。 这 也 与 证 据 一 
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致 一 一 一 个 人 获得 6 次 正面 、4 次 背面 ， 因 此 赢得 2 镑 。 点 估计 给 出 了 较 高 的 概率 
后 验 的 不 确定 性 使 得 它 有 可 能 认为 我 们 会 赢 。 

另外 一 个 顾客 玩 这 个 游戏 ， 投 币 的 序列 为 : 

Hs: Hy Ts Ls Hs Hs Hs Hs Hs H 
8 次 正面 、2 次 背面 一 一 货 摊 主 赢 了 。 结 合 20 次 投 币 ,我 们 有 N 二 20、yw 王 6 十 8 二 14 次 正 
面 ，N 一 yn 二 20 一 14 二 6 次 背面 。 则 得 出 6 二 15、7Y 二 7。 图 3-9 给 出 了 后 验 密度 ， 其 中 细 线 
给 出 了 10 次 投 币 后 的 后 验 ， 虚线 为 先 验 。 期 望 5 ， 
值 和 方差 为 : 
110 E,r,» (R} = 0.6818,var({R} = 0. 0094 

期 望 值 增加 了 ,方差 减 小 了 (参见 式 (3-8))。 
这 都 在 我 们 的 预料 之 中 一 一 8 次 正面 和 2 次 背面 
应 该 能 增加 vr 的 期 望 值 ， 增 加 的 数据 应 该 能 降低 
方差 。 

依据 新 的 证 据 ， 我 们 现在 能 重新 计算 0 0 04 06 v08 1 
Eylyy(P (Ye 和 6|7))。 代 入 适应 的 值 ， 得 ， OE A 

Evy {POY < 617)} = 0. 4045 ( 实 曲线 的 后 验 分 布 ， 虚 线 对 应 于 

新 的 证 据 使 密度 向 右 偏 离 ， 使 7 值 增 大 (硬币 正 先 验 密度 
面 朝 上 ) 的 可 能 性 提高 ， 降 低 了 获胜 的 可 能 性 。 
为 了 完整 性 ， 我 们 还 计算 了 PO(Y,, 夸 61 了 ) 一 0. 3994。 

它 对 应 的 期 望 收益 为 : 











4 





p (rlyw) 








2 X0.4045 一 1 三 一 0. 1910 
等 价 于 玩 一 次 游戏 损失 20 便士 。 
在 这 个 例子 中 ,我们 已 经 接触 到 贝 叶 斯 机 器 学 习 的 所 有 重要 部 分 一 一 选择 先 验 、 选 择 似 
然 、 计 算 后 验 、 使 用 期 望 进行 预测 。 我 们 将 在 另外 两 个 先 验 场景 下 重复 这 个 过 程 。 


3.3.2 公平 的 投 币 


对 于 公平 的 投 币 场景 《MATLAB 脚本 : coin scenario2.m)， 我 们 假设 a= 二 8 二 50， 
这 类 似 于 我 们 投了 100 次 人 硬币， 恰好 有 一 半 的 硬币 正面 朝 上 。 需 要 注意 的 第 一 件 事 是 ，100 
次 投 币 比 我 们 刚才 观察 的 20 次 投 币 具有 更 多 的 数据 。 我 们 应 该 期 望 我 们 的 数据 和 前 一 个 场 
景 具有 相同 的 效果 吗 ? 

图 3-10a 给 出 了 先 验 密度 ， 图 3-10b、c、d、e 和 工分 别 给 出 了 投 币 次 数 为 1、5、10、15 

Di 和 20 次 的 后 验 。 对 于 这 个 场景 ， 在 每 个 阶段 我 们 没有 给 出 以 前 的 后 验 一 一 它 与 当前 的 后 验 

太 近 了 。 然 而 ， 在 大 多 数 情况 下 ， 后 验 的 变化 太 小 以 至 于 两 条 线 几 乎 重合 。 实 际 上 ，10 次 
投 币 以 后 ， 后 验 已 经 和 先 验 不 同 了 。 回 想 我 们 对 8 先 验 的 类 推 ， 先 验 知识 包括 100 次 投掷 硬 
币 的 证 据 ， 因 此 增加 10 次 投 币 后 会 有 区 别 是 不 令 人 惊奇 的 。 

Ess{R) 和 var{R) 随 着 20 次 投 币 的 演变 过 程 见 图 3-11。 在 数据 出 现 之 后 ， 
图 3-11 与 图 3-6 相 比 只 有 非常 小 的 变化 。 这 个 小 变化 表明 了 非常 强 的 先 验 密度 。 这 个 先 
验 会 控制 数据 直到 我 们 观察 了 许多 次 投 币 一 一 也 就 是 , 在 式 (3-3) 中 pl(r) 控制 
plyn |r)。 我 们 创造 了 一 个 模型 ， 这 个 模型 目前 停滞 不 前 ， 并 且 需 要 更 多 的 说 服 力 来 信任 
或 者 否定 它 。 
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b) 5=51, y=50 
投 搓 10 (H) 














0 0.2 0.4 六 0.6 0.8 1 
b) 6=56, y=54 
投掷 20 (HD) 














0 02 04 ,06 08 1 
f) 6=64, y=56 


公平 的 投 币 场景 下 ， 后 验 plr|yx) 随 投 币 次 数 的 变化 情况 。 虚 线 为 先 验 密度 


x10” 
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投 币 
b》20 次 投 币 的 变化 情况 
公平 的 投 币 场景 下 ，Esc, | ,、{R) 的 估计 值 
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像 前 一 节 一 样 ， 我 们 能 计算 出 Bo ,,(P(Yss 二 6|r)。 经 过 20 次 投 币 后 ,我 们 有 6 二 a 十 
yn 二 50 十 14 二 64、y 二 8B 十 N 一 yn 二 50 十 20 一 14 二 56。 期 望 值 计算 如 下 : 
再 il (PlYss Ss 6 [ry} =:0,7579 (3=11) 
像 前 面 一 样 ， 我 们 也 可 以 看 到 该 值 与 使 用 点 估计 ?得 到 的 值 P(Y, 壹 617) 不 同 (在 这 
种 情况 下 ，# 一 64/(64 十 56) 一 0.5333) : 
PC 过 6|F) = 0.7680 
这 两 个 量 预测 我 们 将 获胜 。 依 据 我 们 看 到 的 后 验 信息 ， 这 个 结论 是 不 令 人 惊讶 的 。 这 个 数据 
ete 投 币 是 公平 的 ， 并 且 我 们 已 经 知道 如 果 投 币 是 公平 的 ， 我们 将 会 
赢 (公平 的 投 币 会 导致 我 们 赢 ， 平 均 情况 下 ， 每 次 游戏 赢 66 便士 ， 见 3. 1 节 )。 
作为 一 个 方面 ， 考 虑 这 个 场景 和 前 一 个 场景 中 我 们 的 近似 PC(Y,, 壹 61 六 与 适当 期 望 值 
的 精确 度 。 在 前 一 个 场景 中 ， 这 两 个 值 之 间 的 差 为 
|Eyoiss {PlYses SS 617)} — PlYsos < 6|ND|= 0.0531 
在 本 场景 中 ， 这 两 个 值 是 比较 接近 的 : 
| Ey, {Pl(Yrew 6|17)}— PlYrwow 6|D)|= 0.0101 
这 是 出 现下 面 情况 很 好 的 原因 一 一 随 着 后 验方 差 的 减 小 (场景 2 的 方差 小 于 场景 1) ， 概 率 
密度 变 得 越 来 越 集中 在 一 个 点 的 附近 。 想 象 方差 降低 到 这 样 一 个 程度 ，r 只 取 一 个 值 时 ， 出 
现 plrlyv) 的 概率 为 1， 取 其 他 值 时 概率 为 0。 期望值 计算 如 下 : 


Ess {POY < 617)} = | POY < 617) pr |yw)dr 
如 果 除 了 在 特定 值 ? 外 的 其 他 位 置 p(r|yv) 都 为 0， 这 就 变 为 : 
Epyy { 了 了 (Ya 委 617)} = POYrew < 617) 
换 句 话说 ， 随 着 方差 的 减 小 ，P(Y, 二 61 变 得 越 来 越 近似 于 真实 期 望 值 。 这 不 是 这 个 示 
例 的 特殊 情况 一 一 随 着 数据 量 的 增加 (参数 的 不 确定 性 降低 )， 点 估计 就 变 得 更 可 靠 了 。 





3. 3.3 有 偏 的 投 币 


在 最 后 一 个 场景 中 ,我 们 假设 硬币 〈 和 货 挫 主 ) 偏向 于 正面 朝 上 而 不 是 背面 朝 上 
(MATLAB 脚本 : coin scenario3.m)。 将 它 编码 为 一 个 8 先 验 ， 参数 a 二 5、pB 二 1。 期 
望 值 为 : 

Ew {r} = 5/6 
投 币 6 次 ， pe 正如 场景 2 一样 ,图 3-12a 给 出 了 先 验 密度 ,图 3-12b、c、d、e 
和 ff 分 别 给 出 投 币 1、5、10 和 20 次 的 后 验 。 给 定 我 们 已 经 看 到 的 ， 这 里 没有 什么 不 平常 
的 。 et the eg ( 先 验 有 效 地 影响 了 a 十 8==6 个 数据 点 ) 。 图 3-13 给 出 了 期 
望 值 和 方差 的 演变 。 方 差 曲 线 有 多 个 起 伏 不 平 的 点 ， 这 些 点 对 应 着 投 币 结果 为 背面 。 这 
是 因为 强烈 的 先 验 偏向 于 高 的 > 值 。 在 这 种 假设 下 我 们 不 期 望 看 到 多 的 背面 ， 因 此 当 出 现 
背面 时 ， 模 型 变 得 不 确定 了 。 而 且 ， 我 们 计算 感 兴趣 的 真实 量 ,， Es (PCYse 委 6|r) )。 
最 后 的 后 验 参数 为 6 二 a 十 yw 二 5 十 14 二 19、7y 二 1 十 N 一 yn 二 1 十 20 一 14= 二 7。 代 人， 得 : 
Ey» (POY SS 6|7)} = 0.2915 
注意 F 二 19/(19 十 7) 二 0.7308， 近似 值 为 : 
PCY 6|F) = 0.2707 











[Hg ”这 两 个 值 表明 平均 来 说 我 们 会 输 ， 即 损失 钱 。 
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投掷 后 1 (H) 
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b) 5=6, y=1 
投掷 后 10 (H) 
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图 3-12 有 偏 的 投 币 场景 下 后 验 p(r |yn)〉 随 更 多 投 币 次 数 的 变化 。 虚 线 是 先 验 密度 ， 最 后 4 
张 图 的 点 画 线 是 上 一 次 的 后 验 (也 就 是 4 次 、9 次、14 次 和 19 次 投 币 后 的 后 验 ) 
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3. 3. 4 三 个 场景 一 一 总 结 


我 们 的 三 个 场景 已 经 给 出 了 获胜 期 望 概率 的 不 同 值 : 

1) 没有 先 验 知识 : Esc y, {PC(Yrew 夺 617)} 二 0. 4045。 

2) 公平 的 投 币 : Epi,, {PC(Ysw 寺 617)} 二 0.7579。 

3) 有 偏 的 投 币 : Ei,, {PC(Yrw 寺 617)} 二 0. 2915。 

我 们 应 该 选择 哪个 呢 ? 我 们 依据 先 验 信念 进行 选择 看 似 是 合理 的 。 如 果 货 摊 主 没有 看 起 
来 要 失业 ， 那 么 场景 3 可 能 是 合理 的 。 我 们 可 能 决定 我 们 确实 不 知道 关于 货 摊 主 和 硬币 的 任 
何事 情 ， 然 后 看 看 场景 1。 我们 可 能 认为 一 个 正直 的 货 挫 主 从 来 不 会 骗 人 ， 因 此 进入 场景 2。 
为 它们 中 的 任何 一 个 找 出 理由 都 是 可 能 的 。 可 以 看 到 ， 贝 叶 斯 技术 允许 我 们 从 理论 上 将 观测 
到 的 数据 (20 次 掷 硬 币 ) 和 某 些 先 验 知 识 (上 述 某 一 场景 ) 结合 起 来 。 后 验 概 率 密 度 明 确 
地 模拟 了 每 个 阶段 7 的 不 确定 性 ， 并 且 可 以 用 来 做 出 预测 。( 见 练习 EX 3.7 和 EX 3. 8) 。 


3. 3.5 增加 更 多 的 数据 


在 我 们 继续 讨论 之 前 ， 检 查 增加 更 多 数据 后 的 效果 是 值得 的 。 我 们 看 到 在 每 个 场景 里 增 
加 更 多 的 数据 导致 后 验 与 先 验 的 分 歧 一 一 通常 通过 方差 的 减 小 。 实 际 上 ， 如 果 我 们 继续 增加 
数据 ， 我 们 就 会 发 现 三 种 场景 的 后 验 开始 看 起 来 非常 相似 。 图 3-14 给 出 了 投 币 次 数 为 100 
和 1000 时 三 种 场景 的 后 验 。 将 三 种 场景 投 少量 硬币 后 的 后 验 ( 见 图 3-6f、 图 3-10d、 
图 3-12d) 进行 比较 ， 我 们 发 现 后 验 变 得 越 来 越 相 似 。 尤 其 是 投 币 次 数 为 1000 时 ， 场 景 1 和 
场景 3 变 得 没 法 区 分 了 。 场 景 1 和 场景 3 与 场景 2 的 区 别 在 于 场景 2 先 验 的 方差 很 小 一 一 先 
验 对 应 于 非常 强 的 信念 ， 这 需要 非常 多 的 反 数 据 来 移 除 这 种 影响 。 
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a) 100 次 投 币 后 的 3 个 后 验 密度 b) 1000 次 投 币 后 的 3 个 后 验 密度 


图 3-14 100 次 投 币 后 ay) 和 1000 次 投 币 后 b) 三 个 场景 的 后 验 密度 


随 着 数据 的 增加 ， 先 验 影响 的 减少 是 很 容易 解释 的 ， 如 果 我 们 看 看 用 于 计算 后 验 的 表达 
式 。 忽 略 标准 化 边缘 似 然 项 ， 后 验 正 比 于 似 然 与 先 验 的 乘积 。 当 我 们 增加 更 多 的 数据 时 ， 先 
验 不 发 生变 化 ， 但 似 然 变 成 了 个 体 似 然 的 乘积 〈 如 果 通 常 的 独立 假设 成 立 )。 这 个 增加 会 逐 
渐 压 倒 来 自 先 验 的 单个 分 布 。 这 是 非常 直观 的 一 一 当 我 们 观察 越 来 越 多 的 数据 时 ， 在 观察 之 
前 的 信念 会 变 得 越 来 越 不 重要 了 。 


3.4 边缘 似 然 估 计 


幸运 的 是 ， 从 上 述 三 个 方案 中 选取 最 佳 方案 的 标准 并 非 只 取决 于 主观 脐 断 。 在 上 述 章 节 
中 ， 从 式 (3-3) 可 以 得 知 ， 分母 p(yn) 与 + 间 的 关系 为 : 
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r=1 
plyn) =| plr,yn)dr 


= | pn | WD por) dr CBD 
为 了 确定 p(r) 的 值 ， 需 要 进一步 约束 条 件 。 通 常 ，p(r) 应 该 写 为 p(rla，B)， 即 应 看 
做 是 给 定 参 数 对 a 和 8 的 条 件 概 率 密度 。 此 时 ， 式 〈3-12) 转换 为 如 下 形式 : 
plynxla,B) = | ac I plrla,B)dr (3=-13) 
边缘 似 然 估计 (之 所 以 如 此 称呼 是 因为 已 被 边缘 化 了 ) plyn la，B) 是 一 个 至 关 重要 
的 值 。 这 说 明了 通过 预先 给 定 参 数 对 a 和 PB， 可 以 确定 数据 yx 的 可 能 值 (或 者 出 现 数 据 y、 
的 概率 )。p (yn la，B) 的 值 越 高 ， 越 符合 先 验 分 布 。 因 此 ， 对 于 数据 集 ， 可 以 使 用 
p(ynx la，B) 选择 最 佳 场景 ， 即 选择 p(yx |a，B) 值 最 高 的 那个 方案 。 
为 了 获得 这 个 值 ， 需 要 按照 如 下 的 积分 形式 进行 计算 : 


r=1 
plynla,B)= | - plyn |r)plrla,B)dr 


rr 一] 
=| (0 Dm LT(atB) ri(1l—r)e!ldr 
r=0\YN 


TCa) TB) 
a N、T(a 十 B) | gty =1 11 — NN-y=1 
md eT I 


这 和 式 (3-10〉 的 形式 完全 相同 。 可 以 看 到 ， 此 式 内 的 积分 部 分 是 一 个 非 规范 化 的 8 密度 ， 
因此 通过 整合 可 以 得 到 正 态 的 8 规范 化 常数 的 逆 变 换 。 因 此 
pom | ap) — (») PSE i i 

在 上 述 例子 中 ，N 二 20，yw 二 14 (两 组 10 次 抛 币 中 共有 14 个 正面 )。 取 三 组 不 同 的 a 和 BB 
值 ， 代 入 式 (3-14) 中 ， 可 得 : 

1) 无 先 验 知识 ,a 二 8 二 1，p(yn la,， PB) 二 0.0476。 

2) 公平 的 投 币 , a 二 8 二 50,， p(ynla, BB) 二 0.0441。 

3) 有 偏 的 投 币 , a 二 5, B= 二 1,， p(yx la, B)==0.0576。 

有 偏 的 投 币 的 先 验 具 有 最 高 的 边缘 似 然 值 ， 公 平 的 投 币 的 先 验 具 有 最 低 值 。 通 过 前 面 章 
节 的 学 习 可 以 知道 ， 这 种 方案 获胜 的 概率 为 Eger ya {Pl(Yww 志 6|r)} = 二 0.2915 (注意 ， 此 
时 的 后 验 条 件 是 以 先 验 参数 一 p(r | ysv，a，B) 为 基础 的 ) 。 

需要 特别 指出 的 是 ， 以 这 种 方式 选择 的 先 验 知识 本 质 上 是 选择 最 切合 数据 的 先 验 。 先 验 
不 再 与 我 们 观测 到 数据 之 前 的 先 验 相对 应 。 在 某 些 实际 应 用 中 ， 这 可 能 是 无 法 接受 的 。 这 给 
出 了 一 个 值 来 表示 数据 对 于 先 验 信念 的 支持 程度 。 在 上 面 的 例子 中 ， 数 据说 明 有 偏 的 投 币 的 
先 验 是 最 好 的 证 据 。 





(3-14) 


3.4.1 与 边缘 似 然 做 模型 比较 
在 前 述 章 节 中 通过 使 用 边缘 似 然 来 优化 a 和 有 的 值 来 对 先 验 进行 估计 是 可 行 的 。 假 设 a 
和 有 的 选取 范围 如 下 : : 
0<a<50 
0<B8<30 
可 以 最 大 化 p(yn | a，B) 的 a 和 B 值 。 
图 3-15 显示 了 当 a 和 8B 在 各 自 范 围 内 取 不 同 值 时 ， 边 缘 似 然 估 计 对 应 的 数值 。 其 最 优 
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值 为 a 二 50、B 二 22， 对 应 的 边缘 似 然 估 计 是 0. 1694。 以 这 种 方式 选择 参数 称 为 最 大 似 然 估 
计 类 型 下,， 这 样 标记 主要 是 为 了 与 第 2 章 中 所 讲 的 标准 最 大 似 然 估 计 〈 称 为 类 型 [ ) 相 
区 分 。 














图 3-15 ”在 抛 硬币 例子 中 ,边缘 似 然 估计 的 曲线 图 〈 即 先 验 参数 a、B 的 函数 )， 最 右上 
方 的 圆 点 表示 最 优 值 


3.5 超 参数 


从 目前 的 研究 来 看 ， 贝 叶 斯 分 析 法 允许 将 任意 多 个 感 兴趣 的 参数 作为 随机 变量 来 进行 分 
析 处 理 〈 例 如 ， 抛 硬币 实验 中 正面 朝 上 的 次 数 ”) 。 在 此 例子 中 , -并非 是 唯一 让 我 们 感 兴 
的 参数 。a 和 8 也 是 我 们 感 兴趣 的 参数 一 一 是 否 能 够 对 它们 进行 类 似 的 分 析 处 理 呢 ? 在 某 些 
情况 下 ， 基 于 问题 的 知识 〈 我 们 知道 硬币 是 有 偏 的 ) 可 以 直接 对 它们 进行 特 值 分 析 。 通 常 ， 
我 们 并 不 知道 它们 确切 的 取 值 ， 因 此 可 以 将 它们 作为 随机 变量 来 处 理 。 为 了 达到 此 目的 ， 需 
要 定义 一 个 基于 所 有 随机 变量 的 先 验 概率 一 p(x,，a，B)。 其 具体 计算 过 程 如 下 〈 详 见 2. 2.5 
节 ): 
plr,a,B) = plrla,Bpla,B) 

另外 ， 通 常 假定 a 和 8B 是 相对 独立 的 (pl(a,，B) 二 pla)p(B)) 非常 有 用 。 在 此 模型 中 ， 我 们 

感 兴趣 的 是 包括 所 有 参数 的 后 验 概率 ， 即 
119 plr,a,Blyn) 

根据 贝 叶 斯 规则 ， 则 有 
plynl|rsasB pr a,B) 

plyn) 
a plyx |r)plr,a,p) 
plyn) 
_ plyxlr)plrla,Ppla,p) 
plyn) 

注意 在 第 二 步 中 ， 从 似 然 p(yv | >) 中 移 除 了 a 和 B。 这 是 因为 它们 具有 条 件 独 立 性 〈( 详 见 
2.7.1 节 )。yAN 的 分 布 主要 依靠 a 和 B， 但 通过 它们 对 7 产生 影响 。 如 果 给 定 7 一 个 特 值 ， 这 
种 独立 性 就 会 不 成 立 。 

pla，PB) 通常 需要 一 些 附加 参数 一 一 pla，B | *)， 如 同 a 和 8B 将 对 r 产生 影响 ，* 也 将 对 





plr,asBlyn)= 
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a 和 8B 产生 影响 。« 称 为 超 参 数 ， 因 为 它 是 控制 x 的 参数 的 参数 。 在 计算 边缘 似 然 估 计时， 对 
所 有 的 变量 积分 ， 只 留 下 取决 于 超 参 数 的 数据 : 


pyv|m) 一 Jcss [ryptr la py pt ldr i a 


不 幸 的 是 ， 这 将 增加 模型 的 复杂 度 对 感 兴趣 的 参数 (后 验 概率 p(r，a，B|yw，*)、 任 何 预 
测 期 望 和 边缘 似 然 估计 p(yv | *)〉 的 计算 难度 将 增 大 ,需要 一 种 近似 分 析 方 法 来 解决 这 个 
问题 ， 此 种 近似 分 析 方法 将 在 第 4 章 中 进行 详细 讲解 。 

至 此 ， 可 以 想象 无 限 层 模型 的 情况 。 例 如 ,， “可 以 认为 是 基于 其 他 随机 变量 密度 的 随机 
变量 。 模 型 的 层 数 (确定 一 个 或 多 个 参数 时 的 迭代 关系 ) 由 建 模 使 用 的 数据 集 〈 某 些 层 可 以 
详细 说 明 的 准确 值 ) 和 所 能 承受 的 计算 复杂 度 来 决定 。 通 常 ， 层 数 越 多 ,计算 的 复杂 度 越 
大 ， 预 测 的 也 越 准 确 。 


3.6 图 模型 


当 给 模型 增加 额外 的 层 时 (如 超 参 数 等 )， 模 型 将 很 快 变 得 难以 处 理 。 通 常 使 用 图 模型 
对 其 进行 描述 。 图 模型 是 一 个 网 状 图 ， 节 点 对 应 于 随机 变量 ， 边 代表 变量 间 的 依赖 关系 ， 例 
如 ， 在 2.2.4 节 中 ,介绍 了 多 种 随机 变量 间 的 属性 关系 ， 这 些 属 性 关系 是 通过 抛 硬币 模型 中 
的 两 个 变量 来 呈现 的 ， 即 硬币 的 投掷 结果 X 和 猜测 结果 Y。 此 模型 定义 为 条 件 分 布 P(Y== 
y|XX 二 x)， 其 关系 如 图 3-16a 所 示 。 两 个 节点 通过 一 个 箭头 线 连接 ， 表 示 Y 是 依赖 条 件 X 
而 定义 的 。 注 意 ， 节 点 了 是 有 阴影 的 ， 这 是 因为 只 要 听 者 足够 仔细 ， 这 个 变量 就 是 可 观测 
的 。 听 者 无 需 观测 硬币 的 实际 投掷 结果 ， 因 此 也 无 需 观察 X。 假 设 投掷 过 程 重 复 N 次 ， 则 
有 2N 个 随机 变量 Xi ，…，Xn 和 YY, ，…，Y、w。 全 部 画 出 这 些 变量 是 非常 困难 的 。 可 以 通 
过 在 模板 中 骨 入 节点 来 解决 这 一 问题 。 模 板 是 一 个 矩形 框 所 界定 ， 和 矩形 框 中 的 数值 表示 此 模 
板 被 重用 的 次 数 。 此 数值 放 在 矩形 框 的 右 下 角 ， 如 图 3-16b 所 示 。 








a) b) c) 


图 3-16 图 模型 例子 。 节 点 对 应 于 随机 变量 ， 阴 影 节 点 为 可 观测 的 变量 。 箭 头 线 描述 了 变量 间 的 依赖 关 
系 ， 模 板 描述 了 多 个 实例 。 例 如 , 在 b) 中 ,有 N 个 随机 变量 Y,(z 王 1，…，N)， 并 且 每 个 变 
量 都 依赖 于 随机 变量 X, 。c) 是 抛 硬币 例子 的 图 模型 实例 ， 是 给 出 的 硬币 投掷 模型 的 图 模型 表 
示 。 模 型 具有 单一 的 观察 变量 表示 次 投 撞 中 证 明 的 次 数 思 。 它 受 变量 尺 的 影响 ， 而 尺 取 决 
于 随机 变量 a 和 8。 最 终 c 和 8B 取决 于 超 参数 


图 3-16c 显示 了 抛 硬币 模型 中 各 个 变量 间 的 关系 。 在 N 次 重复 的 投掷 过 程 中 ， 有 一 个 单 
独 的 《可 观测 的 ) 随机 变量 代表 了 出 现 正面 的 次 数 yv。 这 是 条 件 随 机 变量 RR， 它 依赖 于 随 
机 变量 a 和 8， 而 c 和 8 则 最 终 依 赖 于 超 参数 k。 

建议 读 到 本 章 末尾 ， 以 获得 更 多 的 关于 图 模型 的 信息 。 


83 








120 











84 ，。， 第 3 章 机 器 学 习 的 贝 叶 斯 方法 


3. 6.1 小 结 


在 前 面 的 章节 中 ,我们 已 经 引入 了 许多 新 的 概念 ， 其 中 最 重要 的 是 应 该 将 所 有 感 兴 趣 的 参 
数 都 看 做 随机 变量 来 进行 处 理 。 为 了 做 到 此 点 ， 必 须 定义 一 个 基于 所 有 可 能 变量 的 先 验 分 布 ， 
并 使 用 贝 叶 斯 规则 ( 式 〈3-3)) 对 其 进行 分 析 ， 以 便 得 到 在 证 据 中 并 和 观测 数据 后 概率 密度 如 
121] 何 改变 。 可 以 对 结果 的 后 验 概 率 进 行 检测 并 用 于 计算 感 兴趣 的 期 望 。 另 外 ， 我 们 还 讨论 了 如 
何 使 用 边缘 似 然 估计 ( 贝 叶 斯 规则 中 的 正 态 常数 ) 来 计算 不 同 的 模型 〈 例 如 ， 在 抛 硬 币 实 验 
中 选择 最 优先 验 分 布 )， 并 讨论 了 此 方法 的 缺陷 和 使 用 瓶颈 。 最 后 ， 讨 论 了 如 何 通过 将 参数 
视 为 随机 变量 并 定义 其 先 验 的 方式 扩展 贝 叶 斯 规则 。 像 这 样 增加 层次 性 将 使 得 计算 变 得 斑 
手 ， 从 而 不 得 不 求助 于 基于 采样 和 近似 的 技术 ， 这 些 方法 将 在 第 4 章 中 进行 详细 的 介绍 ，。 


3. 7 奥运 会 100 米 数据 的 贝 叶 斯 处 理 实例 

现在 返回 到 奥运 会 100 米 数据 。 在 之 前 的 章节 中 ,通过 将 最 小 平方 损失 和 明确 的 噪声 模 
型 相 结 合 ， 拟 合 了 一 个 线性 〈 相 对 于 参数 而 言 ) 模型 ， 并 且 使 用 最 大 似 然 估 计 找 到 了 最 优 参 
数 。 在 本 节 中 ， 将 使 用 贝 叶 斯 处 理 方法 ， 给 出 在 伦敦 举行 的 2012 届 奥 运 会 的 预测 数据 。 这 
将 包括 多 个 步骤 。 首 先 ， 需要 定义 先 验 概率 和 似 然 估计 (与 在 抛 硬币 例子 中 的 做 法 相同 )， 
并 使 用 它们 计算 模型 参数 的 后 验 概率 ， 这 类 似 于 在 抛 硬币 例子 中 计算 包含 -的 后 验 概率 。 一 
且 计 算 了 后 验 概率 ， 就 可 以 使 用 它 对 新 的 奥运 会 进行 预测 了 。 


3.7.1 模型 
使 用 第 1 章 介绍 的 和 阶 多 项 式 模型 和 第 2 章 介 绍 的 高 斯 噪声 模型 : 


th = wo 二 wiz 二 Wax? 十 十 WkZXE 十 E; 


其 中 e ~N(0, oc)。 其 等 价 的 向 量 表达 式 为 


ft, = Ww Xe 
其 中 四 二 [wo，…，wxj]， x 二 [1，x,，xx，…，xn]」。 将 所 有 的 结果 表示 成 一 个 矢量 
t 一 [为 ， 让 tr, 并 将 所 有 的 输入 表示 成 一 个 简单 的 矩阵 X=[xi, 不，…， XNJ」] (类 似 于 
式 〈1-18))， 可 以 得 到 整个 数据 集 的 表达 式 : 
t= Xzo 十 e 


其 中 E 一 [si， en 。 
在 这 个 例子 中 ， 假 设 知道 e 的 真实 值 ， 这 可 以 使 整个 问题 得 以 简化 。 可 以 应 用 本 章 中 
介绍 的 所 有 方法 将 e 视 为 一 个 随机 变量 ， 并 得 到 后 验 概率 分 布 的 分 析 结 果 ， 但 是 由 于 计算 





122] 复杂 度 较 大 ， 可 能 导致 丢失 部 分 主要 信息 。 四 
将 这 些 变量 符号 代入 贝 叶 斯 规则 中 ， 可 得 : 
2 A plitlw ,X,o ,A)plw |A) 
plw If,X,o ,A) pulX ,or AY (w) (a) 
i plt|w ,X,o p(w |A) 车 





(|X,c,A) @) 名 
其 中 A 对 应 于 定义 先 验 参 数 w 的 参数 集 ， 这 可 以 使 整个 模型 得 
到 进一步 的 细 化 。 其 图 模型 如 图 3-17 所 示 。 扩 展 其 对 应 的 边 ”图 317 奥运 会 男子 100 米 数据 
缘 似 然 估 计 为 : 的 贝 叶 斯 模型 的 图 模型 
plt|lw ,X,o)plw |A) 
pltlw ,X,o)plw |A)dw 


使 用 这 个 后 验 概率 密度 进行 预测 正 是 我 们 所 期 望 的 。 尤 其 是 ， 对 于 新 奥运 会 年 份 的 特征 集合 


plw It,X,o ;A) 一 (3-15) 
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xnew， 对 应 的 获胜 时 间 to 的 密度 可 按 下 面 公式 进行 计算 : 
pls | we ,0 AAA) ett le "TU ,0 )p(w |t,X,o’ ,A)dw (3-16) 


再 次 强调 等 式 右边 成 立 的 条 件 为 ，z 的 后 验 密度 与 ww sw 无 关 ， 因 此 它 并 没有 出 现在 条 件 概率 
中 。 类 似 地 ， 在 进行 预测 时 ， 并 不 使 用 A， 因 此 它 也 不 出 现在 p(t |xow，w，o) 中 。 预 测 
结果 也 可 以 使 用 概率 的 形式 表达 。 例 如 ， 可 以 计算 获胜 时 间 在 9. 5 秒 以 下 的 概率 : 


Dtnew < 9 | Knew Da 'A) = | so 05 | Xnew TY 0 p(w | JA)d vw (93-17) 


3.7.2 似 然 估计 


从 前 面 的 章节 中 可 知 ， 似 然 估计 p(tlw ， XX,， oa) 是 前 面 章节 最 大 化 的 那个 量 。 通 过 模 

型 可 以 知道 
t= Xw+e 
其 中 a 一 NN(0,， co Irn)。 这 表示 一 个 高 斯 随机 变量 8 加 上 一 个 常量 。 正 如 在 2.7 节 所 讨论 的 ， 
它 等 于 高 斯 随机 变量 加 上 平均 数 常量 。 由 此 可 得 似 然 估 计 为 : 
pltlw ,X,o) = N(Xw ,oIn) 

一 个 带 有 均值 Xw 和 变量 oT 的 NN 维 高 斯 密度 。 这 与 抛 硬币 例子 中 的 表达 式 类 似 ， 都 是 

(3-2) 所 给 出 的 二 项 似 然 估 计 。 


3.7.3 先 验 概率 


为 了 生成 一 个 精确 后 验 概 念 的 表达 式 ， 需 要 选择 一 个 先 验 概率 p(w |A)， 它 是 高 斯 似 
然 估 计 的 共 斩 。 通 常 ， 高 斯 先 验 概率 是 高 斯 似 然 估 计 的 共 斩 。 因 此 ， 对 了 z 使 用 高 斯 先 验 概 
plw |Wo,Bo) = Np ,Eo) 
其 中 jp。 和 如 ,将 在 后 面 进行 详细 的 讨论 。 这 与 硬币 例子 中 的 式 (3-4) 类 似 。 从 现在 起 ， 表 
达 式 中 不 在 显 式 地 取决 于 jw。 和 马 ， 例 如 ,为 了 简单 ,将 pCw |t，X， ogo，Jk， 马 ) 记 为 
plw |t，XX,，o )〈 详 见 练习 EX 3. 10)。 


3.7.4 “后 验 概率 

本 章 主要 讨论 后 验 概率 。 与 硬币 例子 相似 ， 利 用 我 们 知道 后 验 概 率 是 高 斯 分 布 的 事实 。 
这 将 允许 忽略 式 〈3-15) 中 的 边缘 似 然 佑 计 ， 只 处 理 似 然 估计 和 先 验 直到 我 们 发 现 与 高 斯 分 
布 成 比例 的 某 些 量 。 作 为 第 一 步 ， 可 以 仅 收集 与 w 相关 的 项 而 忽略 那些 与 w 无 关 的 项 ， 

plw |t,X,o) ocplt|w ,X,0 p(w Iwo ;0) 





1 1 ; 
一 Xrw TID) 
mi ex*P( >t w ) (oT) (tt Xw )) 





1 二 
兴 DE [E 和 rexp( 2 (w Ho ) Do (w— po)) 


ee Ee Lem i Yn 
ccexp( Dt Xrw )"(t Xw Jexp( FW ho) Bo Cw Wo)) 


| 去 (六 (t 一 XXw )"(t 一 关 w ) 十 (wp) Bo (wpo)) | 


将 括号 内 的 项 相 乘 ， 并 再 一 次 消除 与 w 不 相关 的 项 ， 可 得 ， 
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Div | 二 ;证 ,ae ee exp(- 喜 (~ 也 PXw 十 闻 WX XW +w' Bi w— 2 Br! w) | 18 
由 于 已 知 后 验 概 率 是 一 个 高 斯 分 布 ， 因 此 可 以 移 除 常数 项 ( 即 不 包含 w 的 项 )。 重 新 排列 多 
元 高 斯 分 布 表 达 式 ， 可 以 得 到 与 上 面 类 似 的 表达 式 : 
plw |t,¥,o) =N (Ww ,五 。 ) 


eg Tc 
ocexp( Fw jis 7 Eo CW Kw )) (3-19) 


ccexp| 一 Fw Ew 一 202 Ww )} 
式 〈3-18) 中 w 的 线性 二 次 项 一 定 等 于 式 (3-19) 中 的 线性 二 次 项 。 利 用 这 个 关系 ， 可 以 得 


出 互 。: 


Ww Bw 一 二 w XXw+w' Do w 
o 


=w"( 二 XXX 十 2 w 


又 = 1 ME) 


类 似 地 ， 通 过 将 式 (3-18) 与 式 (3-19) 中 的 线性 项 相等 〈 并 将 新 的 五 代入 到 其 中 )， 可 以 
得 到 jw 的 表达 式 : 


— 2D Ww =— St Xu — 2 50 w 
IB = Xw + pi w 
fb 二 FX 二 jw 
me 2 一 人 FX 十 由 25) 马 


ps =( FX + pm25')5. 


je 一 也 (Xefzo) (3-20) 
o 
由 对 称 性 可 知 ， 束 , 二 马 , ， 所 以 有 ， 

plw bp. = ND,) (3-21) 

其 中 、 
罗 ; = (XX+ ) (3-22) 

oO 
Ly =5, (SX"t+ Bo'pe) (3-23) 
o 


( 详 见 练习 EX 3. 12) 这 些 表达 式 与 之 前 所 见 过 的 表达 式 并 没有 太 大 的 差异 。 尤 其 是 ， 比 较 
式 (3-23) 与 式 (1-21) 所 给 出 的 正则 化 最 小 二 乘法 。 事 实 上 ， 如 果 j 二 [0,，0,，…,，0]"， 
那么 这 两 个 表达 式 几 乎 是 没有 差别 的 。 鉴 于 后 验 概率 是 高 斯 分 布 ,，w 最 可 能 的 唯一 值 是 
后 验 概率 的 均值 ls 。 这 称 为 w 的 最 大 后 验 概率 (MAP) 估计 ， 同 时 也 可 以 认为 是 联合 
密度 p(w ，i|X，o ，A) 的 最 大 值 〈 先 验 概率 与 似 然 估 计 的 乘积 ) 。 已 经 认识 到 第 1 章 
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中 的 平方 误差 与 高 斯 似 然 函数 相似 ， 在 这 之 后 计算 最 大 后 验 概率 值 〈 使 用 高 斯 似 然 函 
数 ) 与 使 用 正则 化 最 小 二 乘法 等 价 (参见 EX 3. 9)。 这 一 比较 有 助 于 建立 考虑 先 验 概率 
影响 的 直观 感觉 。 


3.7.5 1 阶 多 项 式 


因为 可 以 在 二 维 参数 空间 中 可 视 化 密度 点 ， 所 以 我 们 可 使 用 1 阶 多 项 式 举例 说 明 移 验 概率 和 
后 验 概率 。 输 入 向 量 有 两 个 元 素 ，x%, 二 [1，x,]。 为 了 便于 可 视 化 ， 我们 重新 缩放 〈 标 准 化 ) 奥 
运 会 各 个 年 份 的 数据 : 用 每 一 个 年 份 减 去 第 一 届 奥 运 会 年 份 (1896 年 )， 然 后 计算 出 的 数 再 除 以 
4。 这 意味 着 zx 现在 是 0，zx; 是 1 等 。 带 有 = 的 新 的 缩放 数据 将 在 图 3-18 中 给 出 。 


回 到 游乐 场 场景 ， 我 们 分 析 的 第 一 步 是 选择 先 12 

验 参 数 p。 和 瑟 。 对 于 po。， 我 们 假设 不 知道 参数 应 当 a 

是 多 少 ， 并 选择 jw 二 [0，0]"。 对 于 协 方差 ， 我们 使 

用 下 面 的 公式 : 11 

100 0 i 

p> | 六 | 10.5 

变量 wo 的 值 较 大 ， 因 为 在 最 大 似 然 估计 中 wo 的 最 10 
优 值 大 于 rw 的 最 优 值 。 我 们 通过 设置 协 方差 中 非 对 

?0 3 10 5 2 站 30 


角 线 元 素 为 0， 假定 先 验 中 这 两 变量 是 独立 的 。 这 并 
不 妨碍 它们 在 后 验 概率 中 是 相互 依赖 的 。 先 验 密度 
的 曲线 见 图 3-19a， 根据 该 模型 很 难 形象 地 说 明 它 的 
意义 。 为 了 便于 理解 ， 在 3-19b 中 ， 表 示 了 由 此 先 验 密度 获得 的 若干 组 参数 的 相应 函数 。 为 
了 创建 这 些 函 数 ， 我 们 通过 jw。 和 如 定义 的 高 斯 模型 定义 对 w 进行 采样 ， 然 后 代入 我 们 的 线 
性 模型 $, 二 wo 十 wix,。 这 些 例子 表明 先 验 密度 可 以 由 多 种 不 同 模型 表示 。 


图 3-18 随 z 值 变化 的 奥运 会 数据 





9.5 ,7 
-20 -10 0 10” 20 加 -人 而 ls 20 25 30 
a) 先 验 密度 b) 由 先 验 参数 创建 的 函数 


图 3-19 使 用 高 斯 先 验 计 算 的 奥运 会 100 米 数据 记录 a) 和 由 先 验 样 本 的 取 值 建立 的 函数 b) 


为 了 说 明 目 的 , 假定 o= 二 10 (MATLAB 脚本 : olympbayes.m)， 当 我 们 观察 一 个 数 
据点 时 ， 可 以 计算 后 验 分 布 。 使 用 与 第 一 届 奥 运 会 相对 应 的 数据 点 ， 数 据 可 以 表示 为 x= 
[1, 0]"、X==[1,，0j]、t 二 [12]。 将 带 有 先 验 参数 的 这 些 值 和 oa 二 10 代入 式 (3-21) 一 
式 (3-23) 中 ， 可 以 得 到 如 图 3-20a 所 示 的 后 验 分 布 。 该 后 验 概率 中 的 rw 比较 确定 但 wi 的 信 
息 仍 然 很 少 。 这 也 很 容易 理解 一 一 我 们 已 经 得 到 了 x=0 的 数据 ， 它 包含 很 多 确定 截 距 的 信 
息 ， 但 关于 确定 倾斜 度 的 信息 则 较 少 “〈 因 为 一 个 数据 点 不 会 告诉 我 们 倾斜 度 ) 。 在 图 3-20b 
中 显示 一 组 由 后 验 参 数 确 定 的 样本 函数 。 它 们 与 由 先 验 参 数 获得 的 样本 看 起 来 很 不 同 万 
其 是 ， 它 们 很 接近 于 第 一 个 数据 点 。 
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a) 观察 第 一 个 数据 点 后 的 后 验 密度 〈 深 色 线 )， 
浅 色 线 表示 先 验 密度 的 样本 函数 





-20 -10 0 10 20 -20 -10 0 10 20 
c) 观察 前 两 个 数据 点 后 的 后 验 密度 〈 深 色 线 )， 


浅 色 线 表 示 先 验 密度 





x 
e) 观察 前 10 个 数据 点 后 的 后 验 密度 〈 深 色 线 )， f) 通过 观察 前 10 个 数据 点 后 的 后 验 密 度 获得 
浅 色 线 表示 先 验 密度 (注意 已 放大 ) 的 祥 本 函数 “这 10 个 数据 点 是 标注 的 ) 


图 3-20 ”通过 增加 奥运 会 观察 数据 点 后 的 后 验 密度 演变 以 及 通过 后 验 密度 获得 的 样本 函数 


图 3-20c、d、e 分别 表示 观察 2、5、10 个 数据 点 后 的 后 验 密度 的 变化 。 与 硬币 的 例子 
一 样 ， 我 们 注意 到 后 验 变 得 更 加 密 (w 值 更 确定 )。 而 且 ， 随 着 它 的 演变 ， 后 验 变 得 上 赤 。 
这 说 明 这 两 个 参数 相互 依赖 一 一 如 果 我 们 增加 截 距 wo 就 必须 减少 倾斜 率 。 回 顾 之 前 的 先 验 
知识 ,我 们 假定 这 两 个 参数 是 独立 的 (有 在 对 角 线 上 有 非 0 值 )， 因 此 这 种 相互 依赖 完全 来 
自 于 数据 内 的 证 据 。 为 了 有 助 于 可 视 化 后 验 密度 在 这 个 阶段 的 含义 ， 图 3-20f 显示 了 一 组 通 
过 后 验 密度 参数 建立 的 样本 函数 。 与 图 3-20b 比较 ， 我 们 发 现 后 验 密度 开始 依赖 于 与 数据 模 
型 相 匹配 的 参数 。 最 终 ， 图 3-21a 展示 了 所 有 27 个 数据 点 均 被 包含 之 后 的 后 验 概率 ， 并 且 
在 图 3-21b 中 ， 表 示 了 所 有 后 验 概率 对 应 的 函数 。 这 些 函 数 逐 渐变 得 与 数据 趋势 相 一 致 。 但 
仍然 有 很 大 的 变化 ， 这 是 由 于 为 了 有 助 于 可 视 化 先 验 密度 和 后 验 密度 ， 我 们 取 二 10 的 较 
高 值 。 为 了 预测 ， 我 们 可 能 想 使 用 更 多 的 真实 值 。 在 图 3-22a 中 ,我 们 显示 了 在 0 二 0.05 
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(这 是 我 们 在 2. 7. 2 节 中 得 知 的 最 大 似 然 值 ) 时 ， 观 察 全 部 数据 后 的 后 验 密度 。 可 以 发 现在 
w 几乎 不 变 的 情况 下 ， 后 验 密 度 变 得 更 密 ， 这 与 之 前 在 图 3-22b 中 的 函数 曲线 是 一 致 的 。 接 
下 来 我 们 将 把 目光 转向 预测 。 


0.5 











3 0 5 10 153 20 25 30 
a) 观察 全 部 数据 点 后 的 后 验 密度 〈 深 色 线 ) ， b) 通过 观察 全 部 数据 点 后 的 后 验 密 度 获 得 
浅 色 线 是 先 验 密度 〈 注 意 已 放大 ) 的 样本 函数 


图 3-21 观察 全 部 27 个 奥运 会 观察 数据 点 后 的 后 验 密度 样本 函数 


3.7.6 预测 
给 一 个 新 的 观测 值 xew ， 我 们 关注 它 的 密度 : 
1 
注意 ， 这 并 不 是 在 硬币 例子 中 所 讲 的 w 的 条 件 分 布 ， 我 们 将 通过 考虑 后 验 概率 的 期 望 积分 去 
掉 w 的 期 望 值 p(w |:，X， co )。 实 际 上 ， 我 们 需要 计算 : 


罗 Ee | Xnew sod = Eycwli,x,e) {D(aw | Xnew swW 0 )} 
= | phos [xnew st 90° plw |t,X,0) dw 


这 与 硬币 例子 中 式 〈3-9) 相 类 似 。 
我 们 的 模型 将 p(w |xis，w，o ) 看 做 是 x 和 带 有 加 性 高 斯 曲 声 的 w 的 乘积 : 
Ptrew | Koow st s0:) = NXiw W 10). 
因为 这 个 公式 与 后 验 密度 公式 都 是 高 斯 公式 ， 所 以 期 望 的 计算 结果 也 是 高 斯 公式 。 一 般 地 ， 
如 果 p(w |p，2) 二 NC4，)， 那 么 男 一 个 高 斯 密度 期 望 N(xsoww ，o ) 为 : 
Bbw | Waons tro ) EE NCR a0 | RE) 
对 于 图 3-22a 所 示 的 后 验 密度 ， 可 以 表示 为 : 
ptsew | xnew ,时 to2) = NC9.5951,0.0572) 





105 11 11.5 950 0 1 2 方 30 


wo 
a) 观察 所 有 数据 点 后 的 后 验 密度 〈 深 色 线 ) ， b) 观察 所 有 点 后 获得 的 后 验 密度 参数 的 函数 
浅 色 线 表示 前 验 密度 (注意 该 图 是 放大 图 ) 


图 3-22 ” 当 增 加 27 个 真实 的 数据 点 ， 噪 声 值 二 0.05 时 ， 奥 运 会 数据 的 后 验 密 度 a) 和 样本 函数 b) 
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图 形 曲线 如 图 3-23 所 示 。 
这 个 密度 看 起 来 像 第 2 章 用 最 大 似 然 方 法 获得 的 预测 密度 。 然 而 有 一 个 重要 的 差异 。 利 
用 最 大 似 然 方法 ， 我 们 选择 似 然 值 最 大 的 模型 。 为 了  ， 
产生 图 3-23 展示 的 概率 密度 函数 ， 我 们 将 所 有 与 数据 
一 致 的 模型 和 先 验 (已 经 对 所 有 后 验 求 平均 ) 求 平 均 。 人 
因此 ， 这 一 密度 考虑 了 已 知 特定 先 验 和 数据 情况 下 mw 二 
中 所 有 的 不 确定 性 。 站 


3.8 边缘 似 然 估 计 用 于 多 项 式 模 型 阶 的 选择 
在 1.5 节 中 我 们 应 用 交叉 验证 方法 来 选择 多 项 式 0 兵 


9 9.5 10 10.5 
的 阶 数 。 交 叉 验 证 方法 准确 地 判断 出 由 3 阶 多 项 式 模 fe 
型 产生 的 数据 集 。 在 3. 4 节 我 们 将 看 到 怎样 利用 边缘 图 3-23 2012 年 伦敦 奥运 会 男子 100 米 
概率 选择 先 验 密度 。 现 在 我 们 将 看 到 它 也 能 用 来 选择 获胜 时 间 的 预测 分 布 
模型 。 特 别 地 ， 我 们 将 利用 它 来 决定 利用 几 阶 多 项 式 模型 生成 数据 。 
高 斯 模型 的 边缘 概率 函数 定义 如 下 : 


p(t|IX ,Lo ,了 20) 一 Jpclx sw ,0 p(w Io ) 互 0 ) drw 


这 与 硬币 例子 中 的 式 (3-14) 类 似 。 这 与 以 前 部 分 所 讨论 的 预测 密度 是 同样 的 形式 ， 是 高 斯 
模型 的 另 一 种 形式 
pIX ,p05) = NX ov + XE XT) (3-24) 
我 们 评估 t 值 一 一 在 训练 集 上 的 响应 。 正 如 在 1.5 节 中 ， 我 们 从 噪声 3 阶 多 项 式 模型 中 生成 
数据 ， 然 后 计算 1 一 7 阶 多 项 式 模型 的 边缘 似 然 。 对 于 每 个 可 能 的 模型 ， 我 们 都 使 用 均值 为 
0 和 一 致 的 协 方差 矩阵 计算 w 的 高 斯 先 验 概率 。 
例如 ， 对 于 1 阶 模型 


J4 9 
ALo 一 [06701” ,20 一 | | 


0 1 
对 于 4 阶 模型 
1 0 入 
0 1 0 0 0 
1 一 [0,0,0,0,0] ,于 = 二 10 0 100 
0 全 ' 农 证 洛 
0 0 0 0 1 


图 3-14a 显示 了 数据 和 真实 的 多 项 式 (MATLAB 脚本 : margpoly. m)。 这 个 真实 的 多 
项 式 是 1 二 57’ 一 x 十 +， 高 斯 噪声 的 均值 为 0、 方 差 是 150。1 一 7 阶 模型 的 边缘 似 然 通 过 在 
式 (3-24) 中 代入 相应 的 先 验 密 度 计 算 ， 然后 以 观测 值 t 估计 该 密度 。 这 个 值 在 图 3-24b 中 
表示 。 可 以 看 到 边缘 似 然 值 在 3 阶 模型 (真实 模型 的 阶 数 ) 处 具有 最 大 峰值 。 利 用 交叉 验证 
方法 的 优点 在 于 计算 相对 容易 (不 必 设 置 多 个 不 同 的 数据 集 )。 我 们 也 可 以 使 用 所 有 的 数据 。 
然而 ， 正 如 之 前 提 到 的 ， 通 常 ， 计 算 边 缘 似 然 非 常 困难 ， 我 们 发 现 借助 交叉 验证 技术 往往 更 
容易 一 些 。 

边缘 似 然 的 计算 是 以 先 验 密 度 的 参数 为 条 件 的 ， 因 此 改变 它们 的 值 常 常 影响 边缘 似 然 和 得 
分 最 高 的 模型 。 为 了 说 明 它 的 影响 ， 可 以 定义 怠 =aTI 并 取 不 同 的 中 值 。 我 们 已 看 到 四 = 三 1 的 
结果 。 在 图 3-25 中 看 到 ， 当 我 们 降低 ma 时 ， 高 阶 模型 的 形状 更 好 。 当 我 们 将 中 从 1 减少 到 
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0.3 时 ， 可 以 发 现 7 阶 多 项 式 模型 是 最 可 能 的 模型 。 通 过 减 小 可 以 说 明 参 数 取 值 必须 越 来 越 
小 。 当 参数 是 5 时 (回顾 1 二 5x; 一 x 十 x)， 最 合适 的 模型 是 3 阶 多 项 式 模型 。 当 我 们 减少 四 
时 ， 这 种 可 能 变 得 越 来 越 小 ， 具 有 较 小 参数 值 的 高 阶 模型 变 得 更 可 能 。 理 解 我 们 通过 模型 所 表 
达 的 意思 非常 重要 。 在 这 个 例子 中 ， 模 型 包括 多 项 式 的 阶 数 和 先 验 的 描述 ， 我 们 必须 认真 谨慎 
地 选择 合理 的 先 验 〈 见 练习 EX3. 11) 。 












1.2¥ 10-% 
800 1 
600 
0.8 
400 吉 
200 疙 0.6 
~ 0 颖 
_500 六 0.4 
-400 02 
-600 
-8004 人 
x 多 项 式 阶 
a) 3 阶 多 项 式 的 噪声 数据 b) 不 同 阶 模型 的 边缘 似 然 
图 3-24 通过 公式 t 二 5z 一 zx 十 x 进行 数据 样本 
[1 一 oxX10 一 1 X 1079 
8 
3 4 
地 4 区 6 
入 仿 5 
有 从 3 登 4 
慎 ， 二 3 
谍 天 > 
1 
0 567 人 3 全 67 
多 项 式 阶 多 项 式 阶 多 项 式 阶 
a) 四 一 0.7 b) m=0.4 c) 四 一 0.3 
图 3-25 当 马 = 二 o3IT 且 oi 递减 时 ，3 阶 多 项 式 的 边缘 似 然 
3.9 小 结 





本 章 主 要 介绍 利用 贝 叶 斯 方法 完成 机 器 学 任务 一 一 把 所 有 参数 看 做 是 随机 变量 。 我 们 用 
贝 叶 斯 方法 分 析 硬 币 投 搓 模 型 和 第 1、2 章 中 介绍 的 线性 回归 模型 。 在 两 种 情况 下 ， 我 们 定 
义 了 先 验 密度 的 参数 和 似 然 值 ， 并 计算 后 验 密 度 。 在 这 两 个 例子 中 ， 先 验 密度 和 似 然 值 是 计 
算 后 验 密度 的 基础 。 此 外 ， 我 们 考虑 后 验 密度 的 期 望 值 来 进行 预测 并 引入 边缘 概率 作为 概率 
模型 的 选择 标准 。 

不 幸 的 是 ， 这 些 表达 式 往往 不 易于 分 析 处 理 , 我 们 必须 求助 于 采样 和 近似 估计 技术 。 这 
些 技术 是 现代 贝 叶 斯 推理 的 基础 ， 并 且 已 经 形成 一 个 重要 的 机 器 学 研究 和 开发 的 领域 。 第 4 
章 将 主要 讨论 三 个 流行 技术 一 一 点 估计 、 拉 普 拉 斯 近似 和 马尔 科 夫 链 一 蒙特 卡 洛 法 。 





3. 10 ”练习 


EX 3.1 假定 we、p=1，8 分 布 在 0 一 1 是 均匀 的 。 尤 其 是 ， 如 果 硬 币 正面 着 地 的 概率 可 以 由 7 及 关于 r 的 B 
先 验 推出 ， 那 么 当 参 数 a 二 1、B 二 1 时 ,r 的 先 验 公式 如 下 所 示 : 
p(n)=1 (0 过 > 过 1) 
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利用 该 先 验 信息 ， 计 算 在 N 次 掷 币 中 出 现 y 次 正面 的 后 验 密度 (例如 ， 将 该 先 验 公式 与 二 项 分 布 

的 概率 相 乘 ， 获 得 类 似 8 密度 的 结果 )。 
EX 3.2 对 于 下 面 的 先 验 公 式 ， 重 复 上 一 题 的 练习 ，8 概率 密度 函数 的 特殊 形式 为 : 

2r 和 过 7 
p(7) = | o 其 他 

当 p(7) 二 2r 时 ， 先 验 参 数 a、B 的 值 是 多 少 ? 
EX 3.3 对 于 下 面 的 先 验 公式 ， 重复 上 一 题 的 练习 ，B 概率 密度 防 数 的 特殊 形式 为 : 
27 0 过 7 过 1 




















a ep 
先 验 参数 是 什么 ? 
EX 3.4 对 于 前 三 题 ， 有 效 的 先 验 样本 数 (a 和 B) 是 多 少 〈 例 如 ， 当 它们 相等 时 出 现 了 多 少 次 正面 向 上 和 
正面 向 下 )? 
EX 3.5 如 果 一 个 随机 变量 RR 服从 8 分布 ， 
DY = Re 六 61 


推导 出 期望值 的 表达 式 Esc {>)》， 使 用 下 面 的 gamma 函数 : 
T(rnt 1) = MEG 


ri TCDOTCO) 
下 JE 一 1 浙 
提示 ， 使 用 下 面 的 公式 ， [an = eT ar 


EX 3.6 使 用 前 一 练习 的 结果 和 下 面 的 等 式 : 
var{r} = Eyw {7} — (Epo {7})? 
推导 出 var{r} 的 表达 式 ， 使 用 上 题 中 的 gamma 函数 。 
EX 3.7 以 不 同 的 货 摊 观 察 20 次 投掷 ， 其 中 9 次 正面 朝 上 ， 计 算 三 种 情况 的 后 验 密度 ， 每 种 情况 下 赢 的 概 





率 和 边缘 似 然 。 

EX 3.8 使 用 Matlab 模拟 掷 币 ， 正 面 朝 上 概率 是 0.7。 掷 币 100 次 ， 计 算 三 种 情况 的 后 验 密度 ， 每 种 情况 
下 赢 的 概率 和 边缘 似 然 。 

EX 3.9 在 3.7.4 节 中 ， 我们 获得 了 奥运 会 100 米 数据 线性 模型 的 高 斯 后 验 ， 代 入 pw 二 [0，0，…，0J]， 
我 们 看 到 后 验 密 度 的 均值 


_ 工 / 工 wr 有 
m= (FX Xt ) Xi 
与 最 小 二 乘法 之 间 的 相似 性 
= (XX+ MI) x 


根据 这 一 特例 ， 计 算 先 验 协 方差 矩阵 再 ， 使 得 两 者 相同 。 换 句 话 说， 根据， 找到 五 。 

EX 3. 10 重新 绘制 以 m 和 有 束 为 条 件 的 奥运 会 100 米 数据 的 先 验 密度 记 的 图 形 。 

EX 3. 11 通过 图 3-25， 我 们 分 析 了 减少 a 对 边缘 似 然 的 影响 。 使 用 Matlab 分析 ， 增 加 a? 对 边缘 似 然 的 
影响 。 

EX 3. 12 ” 当 对 奥运 会 数据 进行 贝 叶 斯 分 析 时 ,假定 a 是 已 知 的 。 反 之 ,假定 包 是 已 知 的 ， 并 且 先 验 密 度 
关于 of 的 gamma 变换 如 下 : 


2 PB" ray-ai _B 
plo |a;B) Fa (go ) wp| | 


后 验 密度 也 可 以 做 类 似 的 gamma 变换 。 推 导出 后 验 密度 的 参数 。 
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A First Course in Machine Learning 


贝 叶 斯 推理 


第 3 章 介绍 了 把 贝 叶 斯 方法 应 用 到 机 器 学 习 中 所 需要 的 主要 概念 。 在 贝 叶 斯 框架 中 ， 所 有 
未 知 量 都 视 为 随机 变量 。 用 分 布 来 描述 每 个 参数 而 不 是 用 值 。 参 数 估计 的 不 确定 性 自然 地 会 影 
响 我 们 做 的 任何 预测 。 先 前 看 到 先 验 和 似 然 相 结 合 的 两 个 例子 是 共 恩 的， 这 意味 着 后 验 和 先 验 
有 相同 的 形式 ， 可 以 用 解析 方法 进行 计算 。 我 们 可 以 证 明 选 择 共 轿 先 验 和 似 然 的 组 合 是 罕见 
的 。 其 余部 分 ， 不 能 计算 后 验 ， 必 须 采 取 近 似 的 方法 。 本 章 将 介绍 三 种 这 样 的 近似 技术 。 


4.1 非 共 思 模 型 


在 第 3 章 中 ， 我 们 看 到 用 两 个 模型 进行 精确 贝 叶 斯 推理 是 可 能 的 。 在 第 一 种 情况 下 ， 建 
立 了 一 个 掷 硬 币 和 一 个 8 先 验 与 二 项 似 然 相 结合 的 模型 ， 这 意味 着 我 们 可 以 说 明 后 验 也 属于 
8 家 族 。 在 第 二 个 例子 中 ， 高 斯 先 验 加 上 高 斯 似 然 导致 一 个 高 斯 后 验 。 事 实 上 ， 我 们 知道 后 
验 的 形式 意味 着 我 们 并 不 需要 计算 归 一 化 常数 〈 分 母 ， 例 如 ， 式 (3-3))。 只 要 能 找到 与 感 
兴趣 密度 相 成 比例 的 分 布 形式 〈 例 如 ， 一 个 8 或 高 斯 分 布 )， 我 们 就 能 确定 归 一 化 要 考虑 其 
本 身 。B 二 项 分 布 和 高 斯 -高 斯 组 合 不 是 唯一 可 以 使 用 的 共 轿 先 验 - 似 然 对 。 其 他 两 个 典型 的 
例子 分 别 是 离散 和 连续 数据 的 多 项 - 狄 利 克 雷 (multinomial-Dirichlet) 和 7 -高 斯 。 

对 于 许多 模型 ， 选 择 共 斩 先 验 和 似 然 是 不 可 能 的 〈 或 者 从 建 模 的 观点 是 不 可 行 的 )， 我 
们 不 得 不 使 用 近似 方法 。 在 本 章 中 ， 通 过 一 个 二 值 分 类 问题 来 介绍 三 种 近似 技术 。 二 值 分 类 
是 机 右 学 习 中 常见 的 问题 ， 并 不 存在 共 思 先 验 和 似 然 的 结合 。 我 们 将 着 眼 于 三 种 技术 : 点 估 
计 、 近 似 密度 和 采样 ， 这 三 种 技术 在 机 器 学 习 中 被 广泛 使 用 。 


4.2 二 值 响应 


图 4-1 显示 了 一 个 与 以 前 看 到 的 有 所 不 同 的 数据 集 ， 每 个 对 象 都 由 两 个 属性 (zi 和 zs) 
来 描述 ， 还 有 一 个 二 值 响应 :二 {0，1)。 根 据 对 象 
的 响应 为 其 绘制 一 个 符号 : 如果 1 二 0， 点 被 绘 成 
一 个 圆圈 ;如 果 :一 1， 则 绘 成 一 个 正方 形 。 将 使 
用 这 些 数据 建立 一 个 模型 ， 使 我 们 能 够 预测 一 个 
新 对 象 的 响应 (0 或 1， 圆 圈 或 正方 形 )。 这 个 任 
务 被 视 为 分 类 一 一 我 们 希望 能 够 把 对 象 划分 为 类 
别 组 中 的 一 类 (在 这 种 情况 下 有 两 类 )。 分 类 是 机 
器 学 习 的 主要 问题 之 一 ， 我 们 将 在 第 5 章 介 绍 几 








种 其 他 的 分 类 算法 。 图 4.1 二 值 响应 的 一 个 例子 ， 每 个 对 象 都 由 
a er 和 2 两 个 属性 ， 以 及 一 个 二 值 目标 
4.2.1 二 值 响应 模型 1 二 {0，1) 定义 。: 一 0 的 点 被 绘 成 一 个 
使 用 下 面 的 向 量 和 和 矩阵 表示 我 们 的 数据 ， 人 
了 
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这 个 模型 〈 带 有 参数 ww ) 人 允许 我 们 为 一 些 新 的 观察 对 象 x, 预测 i 。 
正如 3.7 节 中 奥运 会 的 例子 ， 我 们 需要 计算 基于 模型 参数 的 后 验 密度 。 根 据 贝 叶 斯 规则 得 出 : 


PUIX, w) plw) Cal)y 
plw |t, X) Dalx) 


其 中 ， 边 际 似 然 函数 p(t | X) 为 : 
p(tIX) = Jp lx sw ) p(w dw 


先 验 : 我 们 为 先 验 p(w ) 使 用 一 个 高 斯 密度 。 特 别 地 ，p (Cw ) 王 NO,， gD。 为 了 保持 一 致 
性 ， 假 设 p(w ) 依赖 于 上 ， 将 先 验 表示 为 p(w lo*)。 在 前 面 的 章节 中 ， 选 择 高 斯 密度 往往 
出 于 分 析 的 方便 。 既 然 本 章 不 能 够 依靠 共 力 ， 我 们 就 不 限制 先 验 密 度 的 选择 。 然 而 ， 本 章 关 
注 的 是 克服 非 共 斩 的 方法 ， 高 斯 就 足够 了 。 建 议 读 者 尝试 做 有 关 本 章 介 绍 的 具有 不 同形 式 的 
先 验 密度 p(w ) 的 练习 题 。 

似 然 : 为 了 使 似 然 p(1|X，w) 有 所 进展 ， 我 们 从 假设 上 的 元 素 是 相互 条 件 独立 的 开始 
(参见 2.7. 1 节 )， 有 条 件 依赖 于 w : 


pt|IX,w) = [| pC |X,,w) 


t 是 一 个 二 值 变 量 ， 表 示 第 n 个 对 象 x, 的 类 别 (0 或 1)。 在 前 面 章节 的 高 斯 奥运 会 例子 中 ， 
我 们 视 为 均值 w“x, 和 方差 o ”的 高 斯 随机 变量 ,但 它 只 适用 于 实 值 sh。 相 反 ， 可 以 把 4 
建 模 为 一 个 二 值 随机 变量 一 一 对 每 个 都 是 一 次 单独 的 抛 硬币 问题 。 而 不 是 均值 和 方差 ， 这 
个 随机 变量 由 类 别 为 1 的 概率 来 刻画 (类别 为 0 的 概率 等 于 1 减 去 类 别 为 1 的 概率 )。 为 了 
避免 混乱 ， 用 T, 表示 这 个 随机 变量 (为 了 从 实例 中 区 分 我 们 所 观察 到 的 4)。 因 此 ， 可 以 把 
每 个 当做 一 个 概率 事件 : 


p(t|X,w) = [| pT, = 4 |x,,w) (4-2) 
当 观 察 类 别 1 时 ， 这 个 似 然 函数 给 类 别 1 赋予 很 1 
高 的 概率 ; 同样， 当 观察 类 别 0 时 ， 类 别 0 的 概率 也 全 
很 高 。 当 所 有 训练 点 都 被 很 好 地 预测 时 ， 它 将 达到 最 ”让 
大 值 1。 $06 
现在 ， 我 们 的 任务 是 选择 一 个 产生 概率 的 有 关 x。 三， 


和 w 的 函数 f(x,; w)。 通 常 的 方法 是 采用 一 个 简单 的 
线性 函数 (如 f(x,; ww) 三 wx,)， 然 后 通过 一 个 二 级 Wa 
函数 压缩 其 输出 ， 产 生 一 个 结果 来 确保 它 产生 一 个 有 


0 
效 的 概率 。 这样 一 个 压缩 函数 是 sigmoid 函数 ， 如 wy 
图 4-2 所 示 。 当 wx 增加 时 ,和 值 收敛 到 1; 当 它 减 小 ”图 4-。 压缩 实 值 总 在 到 0~1 的 
时 ， 值 收敛 到 0。 sigmoid 函数 定义 为 : sigmoid 函数 
、 1 


P(T,=1|x,, w) = (473) 


1 十 exp( 一 上 2 ) 
这 个 表达 式 给 出 了 TT, 二 1 时 的 概率 。 在 我 们 的 似 然 中 ， 需 要 实际 观测 的 概率 ， 其 中 一 些 为 
0。 因 为 T, 只 能 取 0 或 1， 所 以 可 以 很 容易 地 使 用 式 (2-2) 计算 P(T, 一 0|x，zo ): 

P(T, = 0|x,,w) =1— P(T,= 1|x,,w) 
1 


: 1 二 exp(— wx,) 
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exp(— wx,) 








“1 二 exp(— Ww x») Be 

结合 式 (4-3) 和 式 (4-4) 为 P(T,=t, |x,，w) 产生 一 个 单一 表达 式 : 
PCOT, =&|x,,w) = POT, = 1|x,,w)"P(T, = 0|x,,w) 
其 中 ， 观 测 数据 (z,,)〉 导致 与 它 相关 的 项 起 作用 ， 不 相关 的 项 不 起 作用 。 
将 它 代 入 式 〈4-2) 可 以 得 到 所 有 7 个 训练 点 的 似 然 : 
plX sw) 一] PT = 1|xww POT, = 0|%w) 
_ 下 1 名 exp(— Ww xX) VT 
be ee FD (Te Sr 


后 验 : 将 似 然 的 定义 与 先前 选择 的 高 斯 先 验 相 结合 是 必要 的 ， 理 论 上 ， 为 了 计算 后 验 密 
度 plw |X，l, 0)。 一旦 有 了 后 验 密度 ， 我们 就 能 通过 相对 于 这 个 密度 的 期 望 来 预测 新 对 
象 的 响应 (类): 


1 
hs wy 1 | sew ,XX,1) 2 pcwlxe 十 exp(— Ww xnew) | 


实际 上 ， 这 并 不 简单 。 后 验 没有 任何 标准 形式 .为 了 评价 特定 ww 的 后 验 , 需要 评价 
式 (4-1) 的 分 子 和 分 母 。 分 子 是 好 的 一 一 可 以 评估 ww 的 高 斯 先 验 密 度 和 我 们 刚刚 定义 的 似 然 ， 
并 将 两 者 相 乘 。 分 母 则 是 一 个 问题 ， 我 们 不 能 用 解析 方法 计算 综合 需求 来 计算 边际 似 然 : 


ZY = ER = | ecx )plw |o’)dw 


换 句 话说 ， 有 一 个 函数 g(w; 针 ,，t, gf ) 二 p(t|XX，w) p(w |o” )， 它 与 后 验 p(w |X, 1， 
0 ) 二 Z gl(w; 半 , t,o ) 成 正比 ,但 是 我 们 不 知道 概率 的 一 致 性 Z : (注意 ， 这 个 常数 通常 
定义 为 Z 而 不 是 2) 。 我 们 只 剩 下 3 个 选项 : 

1) 找到 与 最 高 后 验 值 一 致 的 ww 单 值 。 由 于 g(w; XX，t，o*) 与 后 验 成 正比 ， 所 以 
gl(w ; X，t, 0 ) 的 最 大 值 也 将 与 后 验 的 最 大 值 一 致 。2Z -不 是 zw 的 函数 。 

2) 用 其 他 一 些 可 以 分 析 计 算 的 密度 来 近似 p(w |X，t, 0 )。 

3) 只 知道 g(w ; 和 半 ，t,，o?) 的 情况 下 ， 直 接 从 后 验 p(w | 和 XX，t，o:) 进行 采样 。 

第 一 个 选项 绝 不 是 贝 叶 斯 我 们 将 不 得 不 基于 w 的 单一 值 而 不 是 密度 对 新 对 象 做 出 预 
测 。 然 而 ， 这 很 容易 做 到 ， 这 使 得 它 成 为 流行 的 技术 。 第 二 个 选项 给 我 们 留 下 了 一 个 容易 处 
理 的 密度 (我们 可 以 选择 任何 我 们 喜欢 的 密度 )， 但 如 果 选 择 的 密度 非常 不 同 于 后 验 ， 那 么 
模型 将 非常 不 可 靠 。 最 后 一 个 选项 允许 我 们 从 后 验 中 采样 (因此 对 我 们 可 能 需要 的 任何 期 望 
都 能 获得 良好 的 近似 )， 但 可 能 会 很 困难 。 

在 任何 不 能 直接 计算 后 验 密度 的 问题 上 ， 这 3 个 选项 都 是 可 用 的 。 所 有 这 3 个 选项 有 好 
有 坏 ， 选 择 哪 一 个 依赖 于 所 处 理 问 题 的 特殊 性 〈 计 算 限 制 )。 现 在 ， 我 们 将 依次 描述 。 


4.3 点 估计 : 最 大 后 验 估计 方案 


4. 2 节 表 明 ， 当 不 能 计算 后 验 密度 p(w |X， 于 ) 时 ， 我 们 可 以 计算 一 些 与 其 成 正比 
的 量 gC(w ; 关 ，t，o”)。 这 等 价 于 先 验 和 似 然 的 乘积 。 最 小 化 g(w ; ，t，o*) 的 w 值 与 后 
验 最 大 时 的 w 值 一 致 。 这 将 是 单一 的 最 有 可 能 的 蕉 值 (在 后 验 下 )， 如 果 我 们 决定 使 用 点 估 
计 ， 则 这 是 一 个 明智 的 选择 。 第 2 章 讲解 了 寻找 最 大 似 然 时 的 吉 值 。 这 里 的 想法 非常 类 似 ， 
除了 我 们 现在 最 大 化 似 然 和 先 验 的 乘积 。 该 解决 方案 是 在 3. 7. 4 节 第 一 次 看 到 的 最 大 后 验 估 
计 (MAP),， 在 机 器 学 习 中 很 普遍 。 

与 寻找 最 大 似 然 的 解决 方案 一 样 ， 很 容易 找到 w 值 使 得 log g(w ; X，1) 最 大 而 不 是 
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g(w ; X， 四 最 大 : 

log g(w ;X,1) = log p(t|X,w)+tlog p(w |o’) 
与 线性 模型 的 最 大 似 然 解决 方案 不 同 ， 我 们 无 法 通过 对 表达 式 进行 微分 并 使 其 为 0 来 为 zw 获 
得 一 个 精确 的 表达 式 。 相 反 ， 我 们 可 以 使 用 许多 优化 算法 中 的 任何 一 种 从 给 芭 一 个 猜想 值 开 
始 ， 然 后 不 断 地 更 新 ， 以 这 种 方式 使 g(w ; XXX,，1) 不 断 增加 直到 最 大 。 和 牛顿 一 拉夫 森 过 程 
( 见 注 解 4. 1) 就 是 使 用 式 (4-6) 不 断 更 新 记 值 的 一 种 方法 : 


DB: log g(w; X, 1), Ologg(w; X, 7) 
dwaAaw! ) dw 





(4-6) 


1 
Tw | 





注解 4. 1 (Newton-Raphson 方法 ): Newton-Raphson 方法 (又 称 为 牛顿 方法 ) 是 寻找 函 
数 为 0 的 点 的 一 般 方法 。 例 如 ， 和 寻找 当 函 数 f(x) 二 0 时 的 点 。 假 设 一 个 当前 0 点 估计 
Xs， 通过 移动 阴 数 在 x, 处 的 切线 经 过 过 轴 的 点 来 更 新 它 。 这 个 点 可 以 通过 估计 f(x) 的 
变化 量 除 以 xz 的 变化 量 这 样 一 个 梯度 得 到 。 定 义 8f(z)/3z 为 f(x): 


f(z,) 0 
n Xntl 
(x, — Ta) f (rx,) = f(x,) 
FY) 
i Pe 


这 个 方法 也 能 用 来 寻找 最 小 值 和 最 大 值 ， 因 为 这 些 都 是 倾斜 度 通 过 0 的 点 。 因 此 ， 我们 
用 f(x) 的 导数 (x) 代替 f(x)， 用 f(x) 的 导数 六 (z) 代替 f(x): 
i A 
itl = Fz) 
这 很 容易 扩展 到 向 量 函 数 ， 比 如 x。 在 这 种 情况 下 ，f (x,〉 由 关于 x%, 的 偏 导数 向 量 代替 ， 
1/ 了 (zx) 由 关于 x%, 的 Hessian 矩阵 〈 见 注解 2. 6) 的 道人 f(x)/axBx" 代替 一 一 在 x 二 x, 处 评估 。 











w 的 新 版 本 (w') 由 w 减 去 Hessian 的 逆 ( 见 注解 2.6) 与 偏 导 数 向 量 的 乘积 。 对 于 w 的 任何 初 

始 值 ， 这 个 迭代 过 程 将 更 新 w 直到 其 成 为 倾斜 度 为 0 的 点 。 为 了 检测 我 们 得 到 的 点 收敛 于 最 大 的 

点 ， 可 以 检测 Hessian 和 矩阵 以 确保 它 是 负 定 的 ， 就 像 2.7. 3 节 中 我 们 为 最 大 似 然 所 做 的 一 样 。 
为 了 计算 1 阶 导数 向 量 ， 我 们 首先 用 式 〈4-2) 和 式 (4-5) 为 log g(w ;X,D 扩展 表达 式 : 


N 
log g(w ;X,t) 一 >)log PO(T, = 4,|x,,w) log plw |o’) 
n=1 


_ < 1 和 7 exp(— Ww x) VT 8 
-log (TF ners) (人 tlog p(w ls) 
为 了 防止 表达 式 一 开始 就 太 复 杂 ， 我 们 使 用 以 下 的 简 记 : 
B, = P(T, = 1|w yxy = 
因此 ， 假设 ww 是 D 维 的 ,我 们 有 以 下 表达 式 : 


log g(w ;X¥,t) 一 log p(w |c2) 十 > ylog P4 十 log(1 一 卫 ,) 一 
n=1 








1 exp(— wx,) 





=— Dlog2x— Dlogo— 3 wiwt Dt, logP,+ (1—t,)log (1—P,) 
2 20 a 


其 中 ,前 三 项 是 (高 斯 ) 先 验 的 对 数 。 为 了 寻找 偏 导数 向 量 ， 我们 对 已 , 的 偏 导数 ,使 用 链 
式 规则 〈 见 注解 4. 2) 给 出 表达 式 : 
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Qlogg(w XD) _ 1 oaP, | 一 BS(1— Pp.) 
Ow oo w+ >( 站 让 = Ow ) 
1 l= OP. 
~ w+ (大 e+ Pa ) C9 





注解 4. 2 ( 链 式 规则 ): 当 要 获得 偏 导 数 时 ， 通常 使 用 链 式 规则 很 方便 。 链 式 规则 描述 





如 下 : 
of (sg(w)) _ f(g(w)) dg(w) 
Aw Og (w ) Ow 
作为 一 个 例子 ， 让 
f(w) = #1log P, 
其 中 


1 
1 exp(— wx,) 


为 了 计算 2 入 攻 >， 我 们 按照 下 面 的 公式 使 用 链 式 规则 ， 
af(w) ar(w)oP， _ 1, OP, 


Pr = 




















上 也 oP, dw 卫 , 也 
1 一 PP, 
其 中 ， 再 次 使 用 链 式 规则 把 二” 变 成 一 他: 
了 Ol—P) dP .8 
Aw oP, dw Ow 


为 了 计算 2*， 还 可 以 再 次 使 用 链 式 规则 ， 
aP, _a(l+exp(— wx,))™ a(l+ exp(— w'x,)) 
Ow a(l+ exp(— wx,)) Ow 
1 
(1 exp(— wx,))’ ot 
exp(— w x,) 
Iexp(— wr Ws ™ 
1 exp(— Ww x,) 
1 二 exp(— wr Xx,) 1 exp(— wx) 
= .Pi(— PD (4-8) 
把 式 (4-8) 代入 式 (4-7)， 就 得 到 需要 的 偏 导数 向 量 : 


dlog etw i i Tm 
o n=1 





Ww Xi) (— x,) 








Aw 


N 
= YP 
o n=1 


N 
一 训 w 十 Px, Cs, — P,) (4-9) 
n=1 





为 了 计算 2 阶 导数 的 Hessian 矩阵 ， 我 们 对 w" 再 次 求 微分 。 注 意 -32 所 一 (3) ， 我 们 得 到 
以 下 表达 式 : 


QO’log g(w ;X,t) 1 "apP, 1 i 
i 7 n wr nn n n a 
st 2 2 二 了 Dr Pp.Cl=: Py (4-10) 
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Hessian 矩阵 中 需要 注意 的 一 点 是 ， 因 为 0 三 P, 伟 1， 所 以 它 对 于 任何 x 和 任何 w 都 是 
负 定 的 〈 见 2.7.3 节 )。 因 此 ， 仅 有 一 个 最 优 解 且 2 
为 最 大 值 。 无 论 w 的 值 是 什么 ， 牛 顿 - 拉 弗 森 过 程 


必须 收敛 到 与 后 验 密度 最 大 值 一 致 。 这 是 选择 先 验 
和 似 然 函 数 的 结果 ， 改 变 两 者 之 一 都 可 能 加 大 后 验 。 |) 
密度 优化 的 难度 。 


现在 我 们 已 经 具备 了 执行 牛顿 - 拉 弗 森 过 程 的 05 
一 切 准 备 ， 并 找到 了 w 潜在 的 最 优 值 。 从 w = 


[0，0] 开 始 ， 令 到 =10,， 仅 9 次 迭代 后 CMAT- 2 4 污 代 。 

LAB 脚本 : logmap. m) 过 程 就 收敛 (w 的 变化 不 是 图 4-3 通过 牛顿 二 拉 弗 森 方法 找到 的 对 应 
很 重要 )。 这 个 时 期 w 的 2 个 元 素 的 变化 如 图 4-3 所 于 后 验 密度 最 大 值 的 ww ， 图 示 为 ww 
示 。 接 着 前 面 的 章节 ， 我 们 把 w 的 最 大 值 叫做 也 。 成 员 的 演变 过 程 


使 用 芭 ， 我 们 可 以 计算 任何 x 响应 为 1 的 概率 。 尤 其 是 ， 我 们 观察 一 个 新 xzwee 、 一 组 新 
属性 ， 它 响应 可 能 为 1 的 概率 由 以 下 公式 计算 得 到 : 
0 
1 exp(— ww "xnew) 
已 知 这 个 新 对 象 的 两 个 可 能 的 响应 (类 )， 如 果 概 率 大 于 0.5 则 划分 为 正方 形 类 (T= 二 1); 
否则 ， 划 分 为 圆 形 类 (T= 二 0)。 在 这 种 情况 下 ,符合 P(T 二 1|x, 名 ) 二 0.5 的 x 将 形成 
一 条 直线 ， 我 们 认为 是 决策 边界 一 一 在 直线 一 侧 的 点 属于 一 类 ， 男 一 侧 的 点 属于 男 一 类 。 为 
了 画 出 决策 边界 ， 我 们 利用 P(T 二 1|x, 区) 二 0.5 暗示 着 "x= 二 0 的 事实 ( 见 练习 EX 
4. 5)。 如 果 我 们 扩展 这 个 表达 式 ， 我 们 就 可 以 得 到 决策 边界 作为 x 和 zs 的 函数 : 


0 =wW x = Zi 十 也? Ta 


PT = 1|xw ;WY) = (4-11) 


和 ~ ~ 
WwW2 T2 二 一刻 1 Xl 


PS 
TW] XI 





和 ~ 
ZU2 


如 图 4-4a 所 示 。 如 果 我 们 想 用 一 条 直线 划分 两 个 类 别 ， 这 看 起 来 是 一 个 相当 合理 的 选择 。 
在 图 4-4b 中 ， 我 们 画 出 了 P(T 二 1|x, 名 ) 作为 xz 函数 的 曲线 (MTLAB 脚本 : 
logmap. m)。 接 近 正 方形 的 概率 为 1 正方形 是 4, 二 1 的 对 象 )， 接 近 圆 形 的 概率 为 0。 两 者 
之 间 数 据 的 概率 为 0.5 左右 ， 反 映 了 对 象 可 能 与 两 组 等 距 这 样 一 个 事实 。 





Xl 


a) PC7=1lkx, 加 )=0.5 时 的 数据 和 直线 。 当 把 0.5 作 为 阔 值 时 ， b) 等 概率 线 显示 了 P(7=1l, 功 ) 为 x 的 函数 ， 
将 位 于 直线 之 上 的 新 点 分 为 正方 形 ， 下 面 的 点 分 为 圆 形 表示 将 新 对 象 分 类 为 正方 形 的 概率 


图 4-4 二 值 响应 例子 中 的 推理 函数 
这 个 优化 的 结果 是 我 们 有 了 一 个 可 以 预测 的 模型 。 这 个 模型 是 基于 参数 区 的 点 估计 ， 
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参数 是 通过 寻找 与 最 大 后 验 p(w | 和 X， it, 0) 一 致 的 记 值 。 最 大 后 验 估 计 解 决 方案 在 机 器 
学 习 中 是 常见 的 ， 因 为 这 种 方法 很 容易 找到 也 。 对 于 任何 先 验 和 似 然 的 组 合 都 可 以 按照 
上 面 描述 的 步骤 得 到 最 优 值 。 在 某 些 问题 中 ， 优 化 过 程 不 一 定 和 上 面 一 致 ， 后 验 可 能 有 
多 个 最 大 值 〈 可 能 甚至 某 些 最 小 值 ) 。 很 难 知 道 我 们 通过 牛顿 - 拉 弗 森 找 到 的 最 大 值 是 全 
局 最 优 。 

第 3 章 已 经 发 现 计算 向 量 z 的 密度 函数 而 不 是 仅仅 考虑 点 估计 的 优势 。 采 用 这 样 的 思 
想 ， 当 我 们 无 法 通过 计算 准确 找到 一 个 近似 p(w |X，t， oc) 的 后 验 密度 时 ， 我 们 将 转移 到 
第 二 个 选项 。 


4.4 拉 普 拉 斯 近似 

在 机 器 学 习 中 有 很 多 种 近似 方法 ， 用 较 容 易 处 理 的 近似 来 代替 棘手 的 后 验 密度 。 最 流行 
的 就 是 拉 普 拉 斯 近似 ?。 主 要 思想 是 用 高 斯 近似 感 兴趣 的 密度 。 由 于 我 们 可 以 方便 地 操纵 高 
斯 ， 所 以 这 看 起 来 是 合理 的 选择 一 一 用 给 出 的 高 斯 后 验 很 容易 计算 需要 预测 的 期 望 。 然 而 ， 
我 们 应 该 始终 牢记 我 们 的 预测 仅仅 只 是 逼近 的 。 如 果真 实 的 后 验 不 是 高 斯 ， 那 么 我 们 的 预测 
虽 容 易 计 算 但 没有 用 处 。 

高 斯 密度 由 其 均值 和 方差 定义 。 使 用 高 斯 近似 另 一 个 密度 相当 于 为 这 些 参数 选择 合适 的 
值 。 为 了 激励 由 拉 普 拉 斯 近似 参数 的 选择 ， 假 设 模型 仅 有 一 个 参数 w 而 不 是 两 个 参数 ， 且 
我 们 知道 多 是 与 最 大 后 验 一 致 的 值 。 第 一 步 是 围绕 最 大 值 多 使 用 泰勒 展开 〈 见 注解 4.3) 近 
似 log g(w ;X,t,0o): 





Dlog g(wi;X,t,o)| (wC—%) 
Ow 


log g(w;X,t,o ) Slog g(wW;X,t,o ) 十 a 1 


(wC— VW)? 


证 务 21 








Olog g(w;X,t,o’) 
二 es 





注解 4.3 (泰勒 展开 ): 泰勒 展开 是 近似 函数 的 一 种 方法 。 近 似 总 是 产生 一 些 “ 大 约 ” 值 一 一 
当 远离 那个 值 时 ， 近 似 将 趋 于 远离 真实 函数 。 有 关 取 的 f(w) 泰勒 级 数 定义 为 : 


Ry > — Ce Sw 


其 中 人 个 如 | 8 是 二 处 与 ww 一 致 的 /Cw) 的 n 阶 导数 。 当 nn 一 0 时 ， 这 个 导数 就 是 函数 fu)。 


如 果 仅 计算 有 限 项 ， 那 么 我 们 对 函数 有 一 个 近似 。1 阶 近似 仅 包括 项 n 二 0，n 二 1 一 n 阶 近 似 包 
括 所 有 的 阶 次 一 直到 ”。 例 如 ， 可 以 在 也 =0 处 近似 
f(w)=exp(w): 


入 
Er 





exp(w) 一 exp( 多 ) 十 Texp( 写 ) 证 2 exp( 字 ) i 
现在 ，exp( 凶 ) 二 1 所 以 ， 
一 Ww wi wi oo. 
exp(w) 1 十 条 十 并 十 引 十 


当 添 加 更 多 的 项 时 ， 近 似 会 越 来 越 好 。 这 可 以 在 右 图 
中 看 出 。 




















日 从 技术 上 说 ， 它 实际 上 是 一 个 鞍点 近似 ， 但 在 机 器 学 习 中 已 经 称 为 拉 普 拉 斯 近似 。 在 统计 计算 中 ， 拉 普 拉 斯 近 
似 完 全 是 一 个 给 其 他 东西 的 名 字 。 
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第 二 项 是 最 大 值 点 处 的 1 阶 导 数 〈 例 如 ， 倾斜 度 )， 因 此 必须 为 0。 删除 该 项 ， 忽 略 3 阶 以 
及 更 高 阶 导数 的 项 ， 剩 下 以 下 的 表达 式 : 


log g(w;X,t,o) SN log g(wW;X,t,o) Fw (4-12) 
其 中 vv 是 包 == 负 处 log g (vw; ts o) 2 阶 导数 的 负 : 


Blog g(w;X,t,o ) 








已 一 





入 
人 


现在 ， 高 斯 密度 定义 为 : 


一 一 DJ/ Cw | 


取 对 数 后 等 于 : 
1 2 
log(K) BW 


其 中 ，K 是 归 一 化 常数 。 这 看 起 来 与 yy 二 多 和 o? 二 1/wv 的 式 (4-12) 相似 。 这 就 是 拉 普 拉 斯 ”[149] 
近似 我 们 用 高 斯 密度 近似 后 验 ， 这 个 高 斯 密度 有 后 验 模式 (ww ) 的 均值 和 反比 于 后 验 曲 
线 (其 2 阶 导 数 ) 的 方差 。 
这 个 思想 很 容易 扩展 到 多 元 密度 。 尤 其 是 ， 拉 普 拉 斯 近似 对 真实 后 验 p(w | 关 ，t,， a) 为 : 
plw |X,t,o) Nh,E) 
其 中 , 设置 为 多 , 允 是 Hessian 矩阵 逆 的 负 : 











2 . 
HK 二 0 ,21 = (有 iog gtw ) (4-13) 


Bawazw: 





入 
w 


4.4.1 拉 普 拉 斯 近似 实例 :近似 y 密度 


在 学 习 二 值 响应 实例 中 的 近似 之 前 ， 有 必要 学 习 我 们 所 知道 的 真实 密度 的 一 个 例子 〈 见 [150 
练习 EX 4.1、EX 4.2 和 EX 4.3) (MARLAB 脚本 : lapexample.m)。 这 人 允许 我 们 看 出 近 
似 有 多 好 或 多 差 。 下 面 是 随机 变量 Y 的 y 密度 : 


plyla,8) 一 sy exp{(—pBy) (4-14) 
我 们 将 调查 拉 普 拉 斯 近似 对 这 个 密度 有 多 好 。7Y 密度 对 其 模式 有 一 个 分 析 表 达 式 ， 这 意味 着 
我 们 不 需要 通过 类 似 于 第 3 章 的 优化 过 程 。 将 这 个 模式 y 定义 为 : 


了 证 一 记 
by Qo 














对 p(yla，B) 的 拉 普 拉 斯 近似 采取 高 斯 的 形式 : 
plyla,B) Np,0) 
均值 x 等 于 已 经 定义 的 p(yla，B) 的 众 数 。 为 了 找到 近似 高 斯 的 方差 o。， 我们 需要 找到 
log p(yla，B) 对 于 yy 的 2 阶 导 数 。 它 按 以 下 计算 : 
log plyla,B) =alogB—log(T(a))++ (a—1)logy—By 
9 log plyla,B) 1] 





Oy y 有 
oa’ log p(yla .1 
Dy 
o 将 等 于 >= 王 y 时 这 个 数量 的 负 逆 。 尤 其 是 ， 
小 yy | 





o 


二 = eg 


102 。 第 4 章 ” 贝 叶 斯 推理 


在 图 4-5 中 ， 可 以 看 到 p(yla，PB) 和 相应 的 拉 普 拉 斯 近似 的 两 个 例子 。 首 先 ,， p(yla, PB) 
看 起 来 更 像 是 高 斯 函数 ， 而 且 得 到 近似 值 也 很 好 。 其 次 ，p (yla，B) 看 起 来 非常 不 像 高 斯 函 
数 ， 并 且 近 似 也 不 准确 。 在 两 种 情况 下 ， 当 我 们 远离 众 数 时 ， 近 似 就 变 得 越 差 。 这 是 因为 近似 
值 是 基于 众 数 点 函数 属性 得 到 的 。 当 回 到 二 值 响应 模型 时 ， 我 们 将 再 次 看 到 这 个 特性 。 

















0.05 0 

35 
0.0 30| 
一 0.03 J 
> 会 20 
村 0.0 SS 15 
0.01 0 
5 
00 20 4 y 0 80 100 00 0 和 006 008 0.1 


a) a=20、B=0.5 的 p (ylap)( 实 线 ) 和 近似 高 斯 (虚线 ) b) a=2、p=100 的 p(yle.p)( 实 线 ) 和 近似 高 斯 (虚线 ) 
图 4-5 式 (4-14) 7y 密 度 函 数 的 拉 普 拉 斯 近似 实例 


4.4.2 二 值 响应 模型 的 拉 普 拉 斯 近似 


回 到 二 值 响应 模型 ， 不 得 不 计算 两 种 众 数 ， 取 和 为 牛顿 一 拉 弗 森 过 程 的 Hessian 矩阵 。 
因此 我 们 已 经 做 好 了 拉 普 拉 斯 近似 后 验 p(w | 和 ，t，o*) 的 准备 工作 。 在 图 4-6a 中 ， 我 们 可 
以 看 到 近似 后 验 ; 在 图 4-6b 中 ,在 gC(w; X, D) 顶端 可 以 看 到 同样 的 近似 值 ， 非 归 一 化 的 
后 验 。 由 于 第 3 章 的 > 例 子 ， 近 似 的 形状 能 很 好 地 围绕 众 数 ， 但 是 当 我 们 远离 众 数 时 也 远离 
了 真实 后 验 。 这 是 预料 期 望 的 一 一 拉 普 拉 斯 近似 仅仅 在 众 数 匹配 形状 (曲线 )。 我 们 也 可 以 
从 近似 后 验 取得 w 的 值 ， 观 察 与 其 一 致 的 决策 边界 。 这 样 的 决策 边界 在 图 4-7a 中 男 出 。 在 
些 边界 中 出 现 了 许多 变化 ， 虽 然 它 们 都 能 很 好 地 划分 类 别 。 








wi 


a) 后 验 拉 普 拉 斯 近似 b) 后 验 拉 普 拉 斯 近似 和 真实 非 归 一 化 后 验 ( 浅 色 线 ) 
图 4-6 二 值 问 题 的 拉 普 拉 斯 近似 


最 后 一 步 是 使 用 近似 后 验 来 计算 预测 。 我 们 现在 有 一 个 w 的 密度 而 不 是 单一 值 ， 从 第 3 
章 中 我 们 知道 通过 对 这 个 密度 进行 平均 计算 期 望 值 。 尤 其 是 ， 我 们 应 该 计算 与 w (我 们 记 为 
Nl， 允 )) 近似 后 验 相 关 的 PC(T, 二 1 | xwen，w ) 的 期 望 值 : 
PT = 1 | Rg ) = Bis (PCT, = Rd} 
不 幸 的 是 ， 我 们 不 能 计算 期 望 中 w 的 积分 。 这 可 能 表明 我 们 的 近似 选择 是 不 合理 的 
我 们 仍然 不 能 进行 预测 。 然 而 ， 可 以 简单 地 从 NGC ， 互 ) 中 采样 ， 所 以 我 们 可 以 用 以 下 公式 
近似 期 望 ( 见 式 〈2-23) ) : 
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日 


下 1 
N.S ] exp(™— tw!Xnw) 


5 三 


POT | Ww Kt 0) (4-15) 
其 中 ,，w,; 是 来 自 近 似 后 验 N, 样 例 中 第 s 个 。 使 用 N, 二 1000,， 可 以 在 图 4-7b 中 看 到 
P(T, 二 1 |xww，X 关 ， t,o) 的 轮 廊 (MATLAB 脚本 : loglap. m) 。 和 图 4-4b 进行 比较 。 
有 很 大 的 不 同 ， 轮 廓 不 再 是 直线 。 也 后 验 密度 的 均值 对 混淆 决策 边界 有 影响 。 在 除了 那 
些 非常 接近 数据 对 象 的 所 有 区 域 中 ， 概 率 都 接近 0.5。 基 于 点 估计 的 模型 ， 在 图 4-4b 中 ， 
可 能 被 认为 过 一 臻 以 二 一 3，zs 二 5 为 例子 。 按 照 点 估计 产生 的 预测 〈 见 图 4-4b) ， 
具有 这 些 属 性 的 对 象 可 能 有 近似 于 1 的 概率 ， 尽 管 它 离 其 他 正方 形 对 象 非 常 远 。 把 它 与 拉 
普 拉 斯 近似 后 验 一 致 的 期 望 得 到 的 概率 近似 为 0.6 的 概率 相 比 〈 图 4-7b)。 这 个 值 看 起 来 
更 合理 。 另 一 种 理解 出 现在 这 个 区 域 的 不 确定 性 ， 见 图 4-7a 一 一 在 zi 二 一 3，zs 二 5 处 可 
能 的 决策 边界 有 很 大 变化 。 有 些 边界 可 能 把 对 象 划分 为 正方 形 ， 有 些 则 划分 为 圆 形 当 
是 一 个 正方 形 的 概率 ， 我 们 已 经 看 到 给 出 的 数据 不 是 1。 














-5 4 3 .2 1 0 1 2 3 4 
Xl 

a) 与 拉 普 拉 斯 近似 后 验 采 样 的 w 实 例 相 一 致 的 20 个 ”b) 用 基于 EW, sy PCTe.=1bcewzo) 近 似 计算 得 到 的 
决策 边界 PCT =1bv,o2) 曲线 





图 4-7 从 拉 普 拉 斯 近似 得 到 的 决策 边界 和 预测 概率 等 概率 线 


在 本 节 中 我 们 再 次 看 到 应 该 着 慎 地 使 用 点 估计 。 这 里 所 展示 的 拉 普 拉 斯 近似 可 以 用 来 近 
似 任何 密度 〈 在 实 值 随机 变量 上 )， 我 们 可 以 找到 众 数 和 计算 2 阶 导数 。 这 个 方法 假设 后 验 
可 以 被 高 斯 合理 地 近似 ， 有 些 并 不 总 是 这 样 〈 见 图 4-5)。 在 二 值 响应 模型 中 ， 近 似 不 允许 我 
们 精确 地 计算 预测 需要 的 期 望 。 然 而 ， 我 们 可 以 从 高 斯 均值 中 采样 ， 得 到 基于 样本 近似 的 期 
望 还 是 容易 的 。 在 4.5 节 中 ， 通 过 介绍 一 个 技术 来 扩展 这 个 思想 ， 使 我 们 直接 从 p(w |X， 
ti， 玉 ) 中 采样 ， 尽 管 我 们 不 能 计算 归 一 化 常数 。 产 生 这 些 样本 的 能 力 将 允许 我 们 使 用 基于 
样本 近似 的 期 望 ， 且 不 用 近似 后 验 。 


4.5 抽样 技术 


4.4 节 的 拉 普 拉 斯 近似 给 我 们 提供 了 一 个 近似 后 验 密度 p(w | 和 X，t，o) 的 方法 。 我 们 
对 后 验 密度 感 兴趣 主要 是 因为 预测 时 ， 它 考虑 所 有 关于 w 的 不 确定 性 因素 。 利 用 下 面 的 
期 望 : 
PlTuy | 
求 w 所 有 可 能 取 值 的 平均 值 。 在 这 个 表达 式 中 ， 即 使 用 近似 值 蔡 代 后 验 密度 ， 也 不 能 用 解析 








153 
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方法 计算 出 这 个 期 望 要 的 积分 。 幸 运 的 是 ， 可 以 很 容易 从 高 斯 近似 中 抽样 ， 使 我 们 可 以 使 用 
由 式 (4-15) 计算 出 的 基于 近似 的 样本 。 在 这 个 例子 中 ， 使 用 近似 的 好 处 是 很 容易 生成 样 
本 。 在 本 节 段 ， 我 们 着 眼 于 一 种 技术 ， 这 种 技术 可 以 删除 近似 步 又 ， 直 接 从 后 验 密度 中 抽 
样 。 通 过 这 种 方式 产生 的 真实 后 验 的 样本 集 能 够 直接 代入 式 〈4-15)， 来 计算 想 要 的 预测 概 
率 P(Tw 二 1|xoww， 关 ,t,o )。 下 面 介 绍 一 种 流行 的 抽样 技术 一 一 Metropolls-Hastings 算 
法 。 然 而 ， 在 介绍 它 之 前 ， 先 用 一 个 不 太 抽 象 的 例子 说 明 抽 样 思想 。 


4.5.1 玩 飞镖 游戏 


在 投 飞镖 游戏 中 ， 玩 家 轮流 地 往 飞 镖 盘 上 投 飞 镖 ， 每 人 投 三 支 飞镖 ， 如 图 4-8 所 示 。 飞 
镖 很 锋利 可 以 嵌入 到 飞镖 盘 中 ， 每 投 一 次 飞镖 ， 飞 镖 嵌 入 的 位 置 决定 玩家 得 到 一 个 相应 的 分 
数 ， 三 只 飞镖 的 得 分 加 在 一 起 ， 并 从 玩家 当前 的 总 分 里 扣除 。 每 个 玩家 在 游戏 开始 时 都 有 相 
同 的 分 数 (通常 是 501 分 ) ， 先 达到 0 分 的 玩家 就 是 赢家 。 大 部 分 的 飞镖 盘 有 20 个 段 ， 如 果 
飞镖 落 人 这些 段 的 白色 区 域 ， 得 分 就 等 于 段 边缘 标记 的 分 数 。 如 果 飞 镖 落 入 阴影 区 ， 得 分 就 
是 段 边缘 标记 分 数 的 两 倍 〈 外 面 浅 色 区 域 ) 或 三 倍 〈 里 面 深 色 区 域 ) 。 飞 镖 盘 中 心 的 同心 圆 
叫做 靶 心 或 者 牛 眼 ， 内 部 的 圆 形 叫做 内 牛 眼 (50 分 )， 外 边 
的 圆 形 叫 做 外 牛 眼 (25 分 )。 这 个 游戏 的 规则 稍微 有 些 复 
杂 ， 就 是 最 后 一 镖 必须 投 在 双 售 区 并 且 使 分 数 为 0。 例如 ， 
当前 总 分 数 是 40 分 ， 玩 家 必须 投 到 双 倍 区 20 分 部 分 (标签 
“20” 下 面 的 浅 色 阴影 区 域 );， 或 者 投 一 个 20 分 (20 分 区 域 
的 白色 段 内 ) ， 然 后 投 到 双 倍 区 10 分 部 分 等 。 假 设 当 前 玩家 
有 40 分 ， 同 时 只 剩 一 只 飞镖 ， 换 句 话说 ， 他 需要 投 到 20 分 
双 倍 区 才能 赢 ， 那 么 玩家 能 赢 的 概率 是 多 少 呢 ? 

假设 有 某 个 关于 飞镖 在 入 位 置 的 概率 密度 函数 ， 换 句 话 
说 ， 玩 家 以 双 倍 区 20 分 为 目标 ， 飞 镖 的 嵌入 位 置 可 以 看 成 
是 某 个 变量 的 一 个 实例 ， 用 向 量 y 表示 嵌入 位 置 ， 则 密度 可 图 4.8 飞 刹 盘 
以 表示 为 p(y|A)，A 在 某 些 程度 上 依赖 于 玩家 的 目标 ， 这 
种 依赖 程度 取决 于 玩家 的 技术 。 如 果 一 个 专业 玩家 的 目标 是 双 倍 区 20 分 ,那么 嵌入 位 置 可 
能 会 紧密 集中 在 双 倍 区 20 分 的 周围 。 对 于 一 个 外 行 ， 目 标 对 于 最 终 的 能 入 位 置 影响 很 小 。 
A 取决 于 玩家 的 技术 以 及 技术 的 强度 ， 因 此 p(y1A)， 的 值 很 难 定义 。 

此 时 很 容易 让 人 放弃 。 但 是 ， 退 一 步 讲 ， 我 们 并 不 关心 p(y1A) 的 值 ， 它 只 是 玩家 投 
到 双 倍 区 20 分 的 概率 。 我 们 真 的 需要 写 出 pCy|4) 的 解析 式 来 解决 这 个 问题 吗 ? 在 回答 这 
个 问题 之 前 ， 先 假设 如 果 能 写 出 bpCy|4) 的 值 ， 就 能 算出 玩家 赢 的 概率 。 定 义 一 个 随机 变 
量 T 二 f(y)， 如 果 y 在 双 倍 区 20 分 内 部 ，f(y) 取 1; 否则 ，f(y) 取 0。 工 依赖 于 y， 因 此 
依赖 于 A。 因 此， 我 们 对 P(T=114) 概率 感 兴趣 ， 这 仅仅 是 一 个 期 望 值 。 尤 其 是 ， 这 看 起 
来 更 像 是 上 一 节 计 算 二 值 响应 模型 的 期 望 值 : 


PT 一 114) = Eww (fC)} = | /opDacyla)dy (4-16) 


理论 上 ， 如 果 能 计算 出 PCy14)， 就 能 得 出 玩家 赢 的 概率 。 然 而 ， 基 于 样本 的 近似 我 们 还 能 
够 计算 大 量 的 类 似 的 问题 。 尤 其 是 ， 假 设 从 p(y1A) 中 抽取 Ns 个 样本 ，y, 定义 为 第 个 样 
本 ， 近 似 值 可 以 表示 为 : 





N, 
P(T=1|A) 3 fy,) 
N, 二; 


第 4 章 贝 叶 斯 推理 *， 105 


因此 ， 想 要 计算 P(T= 二 1|A) 的 值 ， 只 要 能 从 p(y1A)〉 中 抽样 ， 就 不 必 计 算 p(y14〉 的 值 。 
幸运 的 是 ， 从 p(y1A) 中 采样 非常 容易 一 一 已 知 玩家 、 飞 镖 、 飞 镖 盘 、 玩 家 目标 是 双 倍 区 
20 分 。 每 只 飞镖 嵌入 的 位 置 就 是 从 p(y1A)， 抽取 的 样本 。 如 果 记 录 每 个 y,.， 就 能 计算 出 
式 (4-16) 中 基于 样本 的 近似 值 。 事 实 上 ， 这 个 例子 就 像 是 计算 玩家 投 中 双 倍 区 20 分 的 次 数 
占 总 次 数 的 比例 。 

可 以 将 这 个 步 又 关联 到 二 值 响应 模型 。 首 先 ， 在 投 飞 镖 这 个 例子 中 ， 落 入 双 倍 区 20 分 的 
概率 P(T 王 114) 类 似 于 二 值 响应 模型 中 的 预测 概率 PC(T, 二 1 | xwes， 兰 ，t，o”)。 在 两 个 例子 
中 ， 要 计算 这 个 量 ， 就 需要 先 给 密度 计算 一 个 期 望 值 : 投 飞镖 例子 中 的 做 和 位置 分 布 bpCy|4) 
类 似 于 二 值 响应 模型 中 用 参数 表示 的 后 验 密 度 p(w |X，t,， ce )。 在 投 飞镖 例子 中 ， 通 过 直接 从 
后 验 密度 抽样 来 近似 期 望 ; 在 二 值 响应 模型 中 ， 通 过 抽样 来 近似 后 验 密度 。 下 面 看 看 如 何 直接 
从 plw |X， t,o) 抽样 (参见 练习 EX 4. 4) 。 


4. 5. 2 ”Metropolis-Hastings 算法 


本 节 介 绍 Metropolis-Hastings” MH) 算法 。 我 们 把 这 个 算法 当成 一 个 秘诀 来 介绍 ， 并 不 过 
多 介绍 细节 ， 描 述 相关 的 步 又 ， 但 对 每 步 不 做 详细 说 明 。 在 本 节 来 尾 提 供 了 补充 其 他 阅读 资料 。 
记得 我 们 想 要 从 p(w | 和 ,t,o ) 中 抽样 来 近似 下 面 的 期 望 值 : 
POTios = 1 [Wo Ktyo) —=Bywrn?) (PCTses = 1 | Xoow rw )} 


ere = 1|xew sw pw |X ,t,o ) dw 
其 中 ， 


N 
Ij 
p(T 1 | 3 N- OP Tre = 1 | xoew sw,) 


Metropolis- Hastings 算法 生成 一 个 样本 序列 wi ，w;，…，ww 汪 1 ，w,，…，tWwn,。 产 生 一 个 样本 w， 
包括 两 步 : 第 一 步 ， 提 议 一 个 新 样本 一 一 作为 w, 的 候选 ， 新 样本 通过 移动 前 一 个 样本 w ,得 到 ; 
第 二 步 ， 测 试 提议 样本 ， 观 察 其 是 否 被 接受 ， 如 果 提 议 样 本 被 接受 ， 那 么 这 个 样本 就 确定 为 w,; 
否则 ， 将 新 样本 设置 为 w,! ， 即 w. 二 w,_! 。 继 续 这 个 过 程 ， 直 到 选 到 了 是 够 的 样本 数 。 

现在 ， 如 果 我 们 提议 样本 是 基于 前 一 个 样本 的 移动 而 得 到 的 ， 那 么 第 一 个 样本 wi 该 怎么 得 到 
呢 ? 实 验证 明 起 始点 是 不 重要 的 ，w'1 可 以 是 任何 值 。 只 要 我 们 的 抽样 足够 多 ,抽样 过 程 就 保证 结 
果 收 敛 到 一 个 让 人 感 兴趣 的 分 布 。 所 以 ， 随 机 选 一 个 wi (通过 先 验 来 抽样 可 能 是 明智 的 选择 )， 从 
Metropolis- Hasting 算法 开始 ， 直 到 算法 收敛 到 一 个 正确 的 分 布 ， 然 后 获取 与 需要 一 样 多 的 样本 。 
一 句 忠告 : 理论 上 ， 抽 样 器 保证 会 收敛 。 实 际 上 ， 在 开始 获取 样本 之 前 用 一 种 〈 最 好 是 多 种 ) 有 
效 的 方法 检测 收敛 性 是 很 重要 的 。 现 在 来 看 看 提议 步骤 和 接受 步骤 的 详细 过 程 。 

提议 一 个 新 样本 : 假设 已 经 利用 MH 方法 抽取 了 * 一 1 个 样本 。 将 要 通过 移动 ww 提议 一 个 
样本 ， 称 为 提出 的 样本 包 ,〈 只 有 当 馆 , 被 接受 了 才 可 以 称 为 w,)， 我 们 需要 定义 一 个 密度 : 

pw, |w,1) 
虽然 我 们 从 后 验 密度 p(w |XX，t,，o ) 采样 ,但 是 该 密度 不 一 定 和 它 有 任何 联系 ,我 们 想 怎 
么 定义 就 怎么 定义 。 实 际 上 ， 该 选择 会 影响 MH 算法 收 伍 的 时 间 。 通 常 的 选择 是 用 高 斯 函 
数 对 当前 样本 w,_) 进行 处 理 : 
Dw [ws EB) = Ww B) 





日 ”以 物理 学 家 Nicholas Metropolis 和 统计 学 家 W. Keith Hastings 的 名 字 命 名 。 他 们 在 物理 学 领域 发 明了 一 种 叫做 
统计 力学 的 处 理 问 题 的 技术 。 
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对 值 序列 进行 抽样 就 生成 了 众所周知 的 随机 漫步 。 图 4-9 展示 了 两 个 随机 漫步 (MATLAB 脚本 : 
randwalk. m)。 其 中 一 个 以 wi 二 [0，0J" 为 起 点 ， 


1 : 
协 方差 了 -| 。 让 疗 时 另 一 个 以 w; =[2，2 了 


0.1 0 

为 起 点 ， 协 方差 为 ==| ， 0.1 |* 后面 的 随 
机 漫步 由 于 协 方差 矩阵 对 角 元 素 很 小 ， 所 以 每 
步 移动 很 短 的 距离 。 正 如 曾经 提 到 的 ， 利 用 高 
斯 函数 处 理 提议 密度 是 常用 的 方法 。 一 个 原因 
就 是 可 以 很 轻松 地 抽样 ， 没 必要 选择 一 个 难以 
抽样 的 提议 分 布 ， 这 会 导致 问题 变 得 复杂 ; 另 。 图 4-9 随机 漫步 的 两 个 例子 ， 以 当前 位 置 为 





一 个 原因 是 对 称 性 ， ,_1 减 去 高 , 和 把 名. 加 中 心 应 用 高 斯 函数 得 到 下 一 个 位 置 的 分 
人 ws 布 ， 两 个 随机 漫步 有 不 同 的 协 方差 矩阵 ， 
本 一 图 中 用 点 标注 出 来 


pw |w 1,5) = plw, 1 |wW ,5) 
从 下 面 的 接受 步骤 中 我 们 就 可 以 看 到 这 样 做 的 优势 。 
接受 或 拒绝 : 已 知 多 ,是 w ,的 候选 ， 现 在 需要 决定 是 接受 多 ,还 是 拒绝 它 。 首 先 ， 计算 
下 面 的 比率 : 





-= PW |X,t,o) plw,i|W ,D>) 


pw i|¥,t,o) p(w |w,1 ,D5) (4-17) 


提议 样本 的 后 验 密 度 除 以 前 一 个 样本 的 后 验 密度 再 乘 以 提议 密度 的 比率 。 上 面 提 到 的 高 斯 函 
数 提议 分 布 的 对 称 性 允许 将 最 后 一 项 忽略 ， 因 为 它 经 常 等 于 1。 第 一 项 是 后 验 密度 用 两 种 不 
同 参数 进行 比较 得 到 的 比率 。 由 于 不 能 归 一 化 表示 它 
们 ， 所 以 不 能 准确 地 计算 密度 ， 然 而 ， 因 为 我 们 感 兴 
趣 的 是 比率 ， 所 以 归 一 化 常量 被 抵消 了 。 因 此 ， 可 以 
用 前 验 比率 乘 以 似 然 比率 替代 后 验 比率 ， 由 此 得 到 下 
面 的 表达 式 : 
_ gw |X,tyo) _ pw lo) plt|w,,X) 
g(wi|X,tso) plw,1|o) plt|w, |X) 


密度 函数 永远 为 正 ， 因 为 比率 永远 为 正 。 如 果 比 率 

1 IE EL 到 
接受 样本 的 概率 就 是 >。 换 句 话 说， 如果 提出 一 个 参数 
集合 ， 其 对 应 的 后 验 概 率 值 比 w,-! 大， 就 接受 ; 否 
则 ， 就 要 视 情 况 而 定 。 算 法 如 图 4-10 所 示 。 我 们 非 
常 详 细 地 描述 了 接受 /拒绝 步骤。 如 果 ”过 1， 接 受 的 
可 能 性 为 概率 r+。 通过 从 0 一 1 之 间 的 均匀 分 布 抽取 
值 x 来 实现 ， 因 为 是 均匀 分 布 的 ， 所 以 x 委 ~ 的 概率 
是 +r。 因此 ， 如 果 u 三 r+， 就 接受 提议 ; 否则 ， 就 拒 
绝 。 可 以 用 一 个 例子 很 好 地 解释 整个 过 程 。 图 4-10 ”Metropolis-Hastings 算法 

图 4-11 显示 了 Metropolis-Hastings 算法 的 操作 过 

程 ， 抽 取 一 个 任意 的 密度 (用 等 概率 线 表 示 ) (MATLAB 脚本 : mhexample.m)。 起 始点 记 ; 如 
图 4-11a 所 示 ， 提 议 密 度 是 且 = 了 的 高 斯 函数 。 从 起 始点 开始 ， 建 立 第 一 个 提议 负 ;， 如 图 4-11b 
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所 示 。 提 议 导 致 了 后 验 密 度 增长 ， 因 此 接受 多;，， 即 w, 一色，。 这 个 接受 过 程 如 图 4-11b 中 实 线 所 
示 。 下 一 个 提议 多 3 引起 后 验 密度 的 轻微 下 降 ， 尽 管 如 此 ， 甸 ; 也 被 接受 了 〈 如 果 提 议 引 起 后 验 密 
度 下 降 ， 提 议 仍 然 有 被 接受 的 可 能 )， 如 图 4-11c 中 新 的 实 线 所 示 。 下 一 个 提议 包 , 引起 后 验 密 度 
值 大 幅 下 降 ， 这 样 的 提议 很 可 能 就 不 被 接受 了 比率 远 远 小 于 1)， 在 这 个 例子 中 届 , 就 没 被 接受 ， 
如 图 4-11lc 虚线 所 示 。 因 此 ，ws 关 负 1，wi 二 w;。 这 个 过 程 继 续 ， 如 图 4-11d、e 所 示 ， 得 到 10 个 
样本 。 按 照 这 个 过 程 ， 有 三 个 提议 被 拒绝 ， 它 们 的 值 被 赋 成 前 一 个 被 接受 样本 的 值 。 继 续 这 个 抽 
样 过程 ， 直 到 有 300 个 样本 被 接受 ， 如 图 411f 所 示 。 这 些 样本 与 密度 等 概率 线 相 一 致 一 一 看 起 
来 向 密度 中 心 集中 ， 边 缘 部 分 很 稀 玻 。 


3 5 





wi 


c) 抽取 3 个 样本 之 后 , 韦 被 接受 , zw 被 拒绝 (虚线 ) 





wi 
e) 抽取 10 个 样本 之 后 f) 前 300 个 样本 
图 4-11 运行 中 的 Metropolis-Hastings 算法 例子 
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个 例子 中 ,我 们 抽样 得 到 的 密度 正好 是 高 斯 函数 。 通 过 计算 样本 的 均值 和 协 方差 ， 并 
Binh 致 ， 说 明 我 们 确实 是 从 一 个 正确 的 密度 中 抽样 
的 。 真 实 的 均值 和 协 方差 为 ， 
1 3 0.4 
ss s) 


通过 N, 王 10 000 次 抽样 ， Te 


4 一 二 史记 二 
得 出 的 结果 是 
，_r0.97704 [3.0777 0.4405 
2 Mi a ne | 
这 两 个 值 都 与 真实 值 非常 接近 ，。 


在 将 MH 算法 应 用 到 二 值 响应 模型 之 前 ， 需 要 讨论 两 个 相关 的 概念 一 一 老化 和 收敛 。 
由 于 抽样 过 程 可 以 从 任何 值 开 始 〈 对 ww 没有 限制 )， 所 以 在 启动 抽样 器 的 时 候 ， 没 有 必要 规 
定 启动 位 置 (可 能 启动 位 置 是 后 验 密度 非常 低 的 区 域 )。 因 此 前 几 个 样本 可 能 不 具有 代表 性 ， 
应 该 删 掉 。 从 起 始点 到 抽样 器 收敛 的 过 程 称 为 老化 周期 ， 这 个 阶段 要 持续 多 长 时 间 是 不 能 人 
为 确定 的 。 在 上 面 描述 的 例子 中 ， 只 有 了 几 个 样本 ， 在 某 些 应 用 中 经 常 有 数 百 个 或 数 千 个 例 
子 。 我 们 要 控制 收敛 来 克服 这 个 问题 ， 并 不 是 要 收敛 到 某 个 值 ， 而 是 要 收敛 到 一 个 特定 的 分 
布 。 换 名 话说， 我 们 看 到 的 样本 是 从 正确 的 分 布 中 得 到 的 吗 ? 

一 个 比较 流行 的 方法 是 从 不 同 的 起 始点 同时 启动 多 个 抽样 器 ， 当 所 有 的 抽样 器 产生 了 有 具 
有 相似 属性 (均值 、 方 差 等 ) 的 样本 时 ， 表 明 它 们 都 收敛 到 同一 个 分 布 ， 这 就 是 我 们 要 抽样 
的 分 布 。 

现在 回 到 二 值 响 应 模型 。 利 用 上 面 描述 的 MH 方法 从 p(w |X,， t,o ) 中 抽取 10 000 
个 样本 (MATLAB 脚本 : logmh. m)， 提 议 密度 是 =x 了 的 高 斯 孙 数 ， 其 中 一 0.5。 在 
图 4-12a 中 显示 的 是 每 10 个 样本 画 一 条 后 验 等 概率 线 (把 10 000 个 点 都 画 出 来 会 非常 拥 
挤 ) ， 样 本 和 等 概率 线 看 起 来 合理 清晰 。 如 果 喜 欢 的 话 ， 我 们 也 可 以 使 用 样本 生成 具有 两 个 
特定 参数 的 边缘 后 验 密 度 ， 记 得 3. 4. 1 节 ， 为 了 从 后 验 边 缘 化 ww ， 需 要 对 所 有 的 ww 值 进行 
积分 (如 果 随 机 变量 是 离散 的 ， 就 相 加 ): 


pwi [|X,t,o) | zc 9 TU [|X ,t,o )dros 


这 里 pCw， ws| 头 , t,o) 是 p(w |XX， t,o*) 的 另 一 种 写法 。 为 了 得 到 基于 样本 的 近似 
值 ， 需 要 用 到 每 一 个 样本 mw,， 忽 略 ww 。 换 句 话 说， 从 每 个 样本 里 删除 ws 的 值 ， 剩 下 的 就 
是 从 plw |X， t,o*) 中 抽样 得 到 的 集合 。 在 图 4-12b 一 图 4-12d 中 ， 用 三 种 方式 使 这 些 样 
本 可 视 化 。 第 一 种 方式 ， 如 图 4-12b 所 示 ， 把 可 能 值 的 阅 值 分 成 20 段 ， 计 算 落 在 每 个 段 内 
的 样本 总 数 。 黑 色 的 柱 形 代 表 wi 的 数目 ， 灰 色 的 柱 形 代表 w; 的 数目 。 如 果 想 要 把 一 定数 
目的 样本 放 入 某 一 段 内 ， 用 总 的 样本 数 除 以 这 个 数目 ， 得 到 的 数字 可 以 认为 是 rw (或 者 
ws) 落 入 某 一 段 的 后 验 概率 。 第 二 种 方式 〈 见 图 4-12c)， 把 10 000 个 wi 样本 全 部 描绘 出 来 
(描绘 w; 的 点 和 描绘 ww 的 点 基本 一 致 ;， 这 种 图 让 我 们 相信 抽样 器 可 以 快速 收敛 。 如 果 没 
有 快速 收 全 ,可 能 会 有 总 体 增长 或 下 降 的 趋势 。 图 4-12d 展示 了 两 个 适合 于 样本 的 连续 密度 
函数 。 这 三 种 方式 展示 了 机 器 学 习 任 务 各 种 可 能 的 解决 方法 ， 如 果 样 本 看 起 来 像 是 从 一 个 高 
斯 函数 得 到 的 ， 那 么 我 们 可 以 给 两 个 样本 集合 规定 高 斯 密度 ( 见 练习 EX 2. 8)。 在 这 个 例子 
中 ， 我 们 使 用 了 核 密度 估计 ， 这 是 一 种 更 常用 的 技术 。 在 Matlab 中 用 概率 密度 分 布 函数 
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(ksdensity) 来 计算 。 这 里 就 不 再 详细 地 讨论 了 一 一 因为 有 许多 使 样本 可 视 化 的 方法 ， 可 
以 把 样本 转化 为 连续 密度 函数 (近似 的 )。 
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e) 预测 概率 等 概率 线 ， 等 概率 线 显示 了 任 一 位 置 f) 随机 选择 的 20 个 MH 样本 产生 的 决策 边界 
ee 圆 形 对 象 的 分 类 概率 是 
1 减 去 这 个 


图 4-12 将 MH 抽样 算法 应 用 于 二 值 响应 模型 的 结果 


最 后 ， 把 注意 力 转 回 概率 预 承 测 ，P(T,ow 二 1 |xoew， 关 ，t，o?)。 当 采用 拉 普 拉 斯 近似 的 时 
候 ， 通过 从 近似 后 验 中 抽取 样本 wi， “3 WN en N 式 计算 ， 可 以 得 出 近似 值 : 


PT oy = 1 | Was tse = es ) 


现在 已 经 有 了 真实 后 验 的 样本 集 ， 可 以 用 同样 的 方法 计算 。 图 4-12e 显示 了 用 这 些 真实 
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后 验 样 本 计算 得 到 的 预测 概率 等 概率 线 。 任 何 位 置 上 的 类 似 于 正方 形 的 对 象 ， 等 概率 线 都 给 
出 了 这 些 对 象 的 分 类 概率 。 等 概率 线 的 形状 更 像 是 图 4-7b 中 的 形状 ， 这 并 不 令 人 惊讶 ， 因 
为 如 图 4-6b 所 示 ， 拉 普 拉 斯 近似 看 起 来 与 真实 后 验 非常 相似 。 唯 一 值得 注意 的 是 ， 图 4-12e 
中 围绕 着 数据 区 域 建 立 的 等 概率 线 有 一 点 不 紧凑 ， 这 表明 概率 下 降 得 很 慢 ， 比 从 一 个 正方 形 
到 另 一 个 正方 形 下 降 得 更 慢 。MH 抽样 器 从 真实 后 验 中 取样 ， 所 以 图 4-12e 中 的 等 概率 线 比 
图 4-16a 中 拉 普 拉 斯 近似 的 等 概率 线 更 接近 真实 值 ， 这 个 比较 只 是 想 指出 拉 普 拉 斯 逼近 在 预 
测 的 时 候 性 能 有 多 好 。 图 4-12f 显示 了 对 应 着 随机 选取 的 .20 个 MH 样本 〈 见 图 4-7a) 的 决 
策 边界 ( 见 练习 EX 4.6、EX 4.7 和 EX 4. 8)。 
3 


® 





-5 0 5 
wi 


a) 二 值 响应 模型 密度 b) 具有 高 度 关联 参数 的 密度 
图 4-13 通过 MH 抽样 得 到 的 两 个 微妙 的 密度 


4. 5.3 抽样 的 艺术 


Metropolis-Hasting 算法 应 用 于 二 值 响 应 模型 看 起 来 工作 得 很 好 ， 但 并 不 总 是 这 样 一 一 抽 
样 方法 (如 MH) 使 用 起 来 非常 微妙 。 难 点 在 于 我 们 要 从 中 抽样 的 密度 模型 经 常 是 未 知 的 。 考 
虑 图 4-13a 所 示 的 密度 ， 有 两 个 众 数 ， 一 个 是 ww 二 [ 一 1， 一 1]"， 另 一 个 是 w 一 [2，2]7。MH 
算法 喜欢 朝 着 众 数 移动 ， 移 动 导致 后 验 密度 增加 ， 因 此 样本 容易 被 接受 。 想 象 w, 在 众 数 w 三 
[2，2]7 附近 ，w, 从 这 里 移动 到 众 数 w 二 [一 1， 一 1J' 需要 在 行 方向 上 大 幅 下 降 。 尽 管 有 这 种 
可 能 ， 但 是 可 能 性 微乎其微 。 这 就 是 类 似 于 .MH 这 类 算法 在 理论 上 和 实际 上 出 现 偏差 的 地 方 。 
理论 上 ， 从 一 个 众 数 顶端 的 某 一 点 移动 到 男 一 个 众 数 顶端 的 某 一 点 (可 能 性 不 大 不 代表 不 会 发 
生 )。 实 际 上 ， 我 们 可 能 会 变 得 很 老 了 。 当 发 现 其 中 一 个 众 数 的 时 候 我 们 很 开心 ， 但 是 却 没 意 
识 到 另 一 个 众 数 的 存在 。 

第 二 个 问题 用 图 4-13b 中 的 密度 来 说 明 ， 图 中 仅仅 是 一 个 众 数 的 密度 ， 但 是 两 个 变量 
wi 和 ws 互相 依赖 或 者 说 是 高 度 关联 的 。 如 果 wi 是 已 知 的 ， 那么 就 有 可 能 把 zw， 限制 在 一 
个 很 小 的 范围 内 , 像 p 氏 ,|w ,1) 这 样 的 密度 很 难 选择 提议 分 布 。 选 取 图 4-13b 中 密度 的 
任何 位 置 ， 想 象 对 一 个 对 角 协 方差 矩阵 〈 与 我 们 用 到 的 所 有 例子 一 样 ) 提议 一 个 基于 高 斯 密 
度 的 移动 ， 这 个 矩阵 在 描绘 的 时 候 有 圆 形 的 等 概率 线 。 图 4-13b 显示 密度 并 不 是 圆 形 的 ， 因 
为 提议 密度 模型 与 我 们 试图 从 中 抽样 的 密度 模型 有 很 大 不 同 ， 所 以 许多 样本 会 被 拒绝 : 大 部 
分 提议 抽样 的 移动 会 加 剧 概率 下 降 倾 斜 度 。 

还 不 仅仅 是 这 些 问 题 。 例 如 ， 我 们 怎么 才能 知道 什么 时 候 抽 取 了 足够 的 样本 呢 ? 怎么 才能 
知道 要 丢弃 多 少 个 最 初 阶段 的 样本 呢 ? 幸运 的 是 ， 有 许多 方法 可 以 克服 这 些 问题 : 更 高 级 的 算 
法 、 选 择 提议 密度 的 方法 ， 表 明 收 敛 的 数量 估计 等 。 其 他 阅读 材料 中 提供 了 更 多 的 细节 。 
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4.6 小 结 


当 我 们 不 能 用 解析 方法 计算 分 布 的 时 候 ， 和 希望 用 贝 叶 斯 方法 解决 问题 ， 这 就 是 本 章 的 动 
机 。 我 们 已 经 列举 了 三 个 通用 技术 的 例子 。 首 先 ， 找 到 后 验 的 最 高 点 (MAP 估计 )， 这 是 
个 单一 值 ， 单 一 值 并 不 是 准确 的 贝 叶 斯 方法 ,但 是 它 结合 了 先 验 知 识 ， 因 此 它 被 认为 是 对 最 
大 似 然 解 的 改进 。 第 二 个 方法 是 用 另 一 个 密度 来 近似 后 验 ， 我 们 选择 拉 普 拉 斯 近似 ， 它 使 用 
高 斯 函数 近似 后 验 。 在 许多 应 用 中 ， 这 个 密度 能 够 用 解析 方法 计算 想 要 的 期 望 值 。 在 二 值 响 
应 模型 应 用 中 ， 期望值 难 以 用 解析 方法 处 理 ， 但 是 从 高 斯 函数 抽样 是 很 简单 的 ， 所 以 利用 基 
于 抽样 的 近似 方法 。 第 三 个 方法 ， 利 用 Metropolis-Hastings 算法 从 用 来 计算 期 望 的 真实 后 
验 中 产生 样本 ， 这 导致 了 额外 的 计算 代价 ， 但 是 “〈 至 少 在 理论 上 ) 我 们 得 到 了 反映 真实 后 验 
的 预测 结果 。 


4.7 练习 


EX 4.1 包含 NN 个 观察 对 象 x, 的 数据 集 ( 每 个 x, 是 DD 维 的 )， 真 实 值 是 t,， 线 性 回归 模型 如 下 定义 : 
plts|xnrw) = NwTx,,1) 
进行 标准 ID 假设 , 假设 有 D 维 参 数 w 的 高 斯 先 验 ， 说 明 拉 普 拉 近 似 等 于 真实 后 验 。 
EX4.2 第 3 章 计算 了 硬币 正面 朝 上 概率 7 的 后 验 密度 ,使 用 了 B68 先 验 和 二 项 式 似 然 ， 具有 参数 a 和 8B 的 B 
先 验 为 : 


Tt 二 胞 a sp 
plrla,pB) ree TO (th en) 


假设 N 次 抛 硬币 有 y 次 正面 朝 上 的 二 项 式 似 然 为 
ply|r,N) = (Rts 


计算 后 验 的 拉 普 拉 斯 近似 。( 注 意 : 你 应 该 能 够 获取 MAP 值 的 一 个 闭 型 解 六 ， 通 过 设置 对 数 后 验 
为 0， 微分 并 等 于 0)。 

EX 4.3 描绘 真实 的 8 后 验 和 练习 EX 4. 2 中 具有 各 种 a、B8、y 和 NN 值 的 拉 普 拉 斯 逼近 。 

EX 4.4 ”给 定 一 个 圆 形 区 域 的 表达 式 ，A 二 xr*， 利 用 唯一 的 非 均匀 分 布 的 随机 变量 ,设计 一 个 计算 x 值 的 
抽样 方法 。 

EX 4.5 重新 整理 逻辑 函数 : 


ES 


I 
1 十 exp( 一 区 Txnew) 





PT = 1 |xoow ;人 ® ) = 


证 明 PC(Tss = 二 1 |xwew， 夫 ) = 二 0.5 时 , 二 Txwew 二 0。 
EX 4.6 假设 观察 到 具有 xi，…，xn 的 NN 个 向 量 ,， 以 及 相关 的 整数 计数 二 ，…， itn。 可 以 应 用 泊 松 
似 然 : 
Viexp{— V.} 
plt, | ,Ww ) 一 ET 
其 中 ,V, 二 exp(w'x,)。 
假设 w 的 高 斯 先 验 ， 要 获取 倾斜 度 和 Hessian 矩阵 ， 需 要 用 到 牛顿 - 拉 弗 森 过 程 来 查找 参数 让 的 
MAP 解 。 
导出 练习 EX 4. 6 中 模型 的 拉 普 拉 斯 近似 值 。 
实现 练习 EX 4. 6 中 模型 的 一 个 Metropolis-Hasting 抽样 机 制 ， 比 较 后 验 和 练习 EX 4.7 中 的 拉 普 
拉 斯 近似 值 。 
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前 几 章 主要 介绍 了 机 器 学 习 方 法 的 主要 概念 。 对 于 一 个 特定 模式 ， 我 们 已 经 了 解 到 如 何 
选择 参数 以 及 如 何 对 观测 数据 做 出 预测 。 主 要 有 3 种 方法 : 找 出 使 误差 最 小 的 参数 、 找 出 使 
似 然 函数 最 大 的 变量 和 将 参数 变 为 变量 的 方法 。 在 本 章 以 及 以 后 的 章节 中 ,我 们 将 会 再 次 看 
到 其 中 的 一 些 方法 。 因 为 我 们 要 解决 机 器 学 习 领 域 主要 的 算法 家 族 : 分 类 、 聚 类 和 预测 。 

本 章 主 要 解决 分 类 问题 。 机 器 学 习 领 域 有 很 多 分 类 算法 ， 它 们 在 每 天 的 基础 上 增长 。 我 
们 有 选择 地 引进 4 个 算法 。 这 4 个 算法 通常 被 认为 是 分 类 技术 的 基础 知识 ， 通 过 对 它们 的 学 
习 ， 可 以 使 读者 有 能 力 解决 一 些 基 本 的 分 类 问题 ， 也 可 以 更 进一步 探讨 其 他 领域 知识 。 

这 4 个 算法 可 以 分 为 两 种 类 型 一 一 那些 输出 为 概率 的 和 输出 非 概率 的 。 这 两 种 类 型 都 有 
自己 的 优势 ， 选 择 永远 依赖 于 数据 集 。 


5.1 一 般 问题 

通常 情况 下 ， 数 据 集 有 NN 个 训练 对 象 ，x1 ，…，x,。 每 个 对 象 都 是 一 个 DD 维 向 量 。 对 
于 每 个 对 象 ， 我 们 还 提供 了 一 个 标签 i, 描述 对 象 n 属于 哪个 类 别 。z 通常 会 取 整 数值 。 例 
如 ， 如 果 数 据 分 为 两 类 , ,二 {0，1} 或 4, 二 {一 1，1)。 通 常情 况 下 ， 如 果 有 C 个 类 别 ， 则 
4 一 {1，2，…，C})，, 我 们 的 目标 是 对 于 给 定 的 对 象 ze ， 预 测 它 的 类 别 zev 。 

有 必要 将 这 一 章 的 内 容 与 第 1 和 第 3 章 进行 对 比 。 在 前 面 两 个 章节 中 ， 我 们 提供 了 一 组 
对 象 Fr ，…，xz 并 给 它们 赋值 为 实数 。 对 于 许多 例子 ， 对 象 是 奥运 会 的 年 数 和 男子 100 米 
获胜 的 时 间 。 我 们 的 目标 是 对 于 未 来 的 奥运 会 比赛 预测 获胜 时 间 。 分 类 设 定 都 非常 相似 一 一 
分 类 的 响应 变量 是 一 个 表明 某 个 类 的 整数 而 不 是 实数 。 事 实 上 ， 在 第 4 章 中 我 们 已 经 看 到 了 
分 类 的 一 个 例子 。 二 值 响应 模型 是 一 个 众所周知 的 二 值 分 类 算法 ， 称 为 逻辑 回归 。 

分 类 算法 已 成 功 地 应 用 在 许多 领域 。 两 个 极 具 挑战 性 的 例子 是 自动 疾病 诊断 和 文本 分 
类 。 在 自动 疾病 诊断 中 ， 主 要 根据 医疗 观察 预测 病人 是 否 健康 。 在 文本 分 类 中 ， 主 要 为 特定 
的 用 户 根据 主题 与 相关 性 对 文本 进行 分 类 。 这 两 个 例子 说 明 分 类 技术 应 用 领域 的 多 样 化 。 不 
同 的 领域 有 它们 自己 的 相关 问题 。 例 如 ， 在 第 一 个 例子 中 ， 如 何 处 理 错 误 的 不 平衡 代价 ? 在 
第 二 个 例子 中 ， 如 何 处 理 复杂 的 数据 对 象 ， 如 文本 ? 这 些 问题 将 在 后 面 的 章节 中 解决 。 


5.2 概率 分 类 器 


概率 和 非 概 率 分 类 器 的 不 同 在 于 输出 的 类 型 不 同 。 概 率 分 类 器 产生 的 是 对 于 一 个 新 对 
象 ， 其 属于 某 个 特定 类 别 的 概率 。 用 矩阵 和 向 量 (X，z) 的 形式 表达 训练 数据 ， 对 于 类 别 c 
来 说 ， 它 的 概率 是 
POD, 7 Cl ,1) 1 (5-1) 
作为 概率 ， 它 必须 满足 以 下 两 个 条 件 : 
0 ss PCT = CNet E 1 


Sib Ga 到 ,区 1 
c=1 
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以 概率 作为 输出 看 起 来 可 能 没有 必要 。 我 们 刚刚 说 我 们 的 任务 是 预测 类 别 T,.,。 如 果 我 
们 只 对 分 配 问题 感 兴趣 ， 那 么 我 们 可 能 会 选择 一 个 非 概率 分 类 。 然 而 ， 在 许多 应 用 中 ， 概 率 
分 类 是 非常 有 用 的 ， 因 为 它 在 输出 中 提供 了 一 个 置信 度 水 平 。 例 如 ， 考 虑 两 个 类 别 的 疾病 诊 
断 系 统 ， 健 康 用 0 表示 、 患 病 用 1 表示 。 提 供 概 率 PCT, 二 1|xiw， 关 ,1) 比 简单 地 说 明 
tew 二 1 更 实用 。P(Tw 二 1 |xoew，X 六 ,tt) 二 0.6 和 PCTw 二 1 |xwew， 半 ，t) 一 0.9 都 表明 xis 
应 该 归 类 为 患 病 。 但 前 者 的 确定 性 更 小 。 在 做 出 一 个 决定 之 前 也 许 要 做 更 多 的 测试 。 


5.2.1 贝 叶 斯 分 类 器 


贝 叶 斯 分 类 器 是 已 知 的 第 一 个 概率 分 类 器 ， 由 它 所 依据 的 方程 式 而 得 名 。 对 于 C 个 类 
别 的 给 定 训练 样本 点 ， 我 们 首先 计算 C 个 类 别 的 先 验 概率 〈 式 (5-1))。 这 些 概率 可 以 作为 
决策 过 程 的 基础 (如 分 配 x 为 概率 最 高 的 类 别 )， 也 可 以 用 来 计算 期 望 值 。 

从 贝 叶 斯 规则 中 (参见 本 书 2. 2.7 节 和 第 3、4 章 )， 我 们 可 以 得 到 一 个 基于 先 验 概率 的 
表达 式 : 
Rl = CRPET. = | 

让 CR， | ,ty 

边缘 似 然 函数 p(xsew |X，b 可 以 展开 为 C 个 类 别 的 总 和 ， 得 到 贝 叶 斯 分 类 公开 





RC Tr 人 | pb\ 


Pxnew | Trow = csX,DP(T, = c|X,t) 
可 
Sp |T KOPF el|XD 


PT = cx 1) 一 (572) 


接 下 来 的 任务 是 计算 px | Tow 二 c，X,， 1) 和 POT 二 c|XX，1)，xwew 属 于 第 c 个 类 别 的 似 
然 函 数 和 第 c 个 类 别 的 先 验 概率 。 在 后 面 的 章节 中 ， 我 们 将 一 一 计算 。 
5.2. 1.1 似 然 函 数 一 一 类 条 件 分 布 

式 (5-2) 中 的 似 然 函数 p(x | T= 二 c，X，t) 是 第 C 个 类 别 的 分 布 函 数 ( 由 Te =c 来 决 
定 )， 用 来 计算 x 。 虽 然 目前 还 没有 原因 为 什么 会 这 样 ， 但 是 通常 对 每 个 类 都 使 用 相同 类 型 的 分 
布 。 对 于 分 布 函数 的 选择 ， 应 该 尽量 依赖 被 建 模 数据 的 类 型 和 我 们 已 知 的 任何 额外 的 知识 。 一 旦 
我 们 对 第 c 个 类 别 选 定 了 分 布 函 数 ， 剩 下 的 问题 就 是 选择 参数 。 例 如 ， 如 果 我 们 选择 了 高 斯 分 布 
函数 ， 就 需要 决定 均值 和 方差 〈 协 方差 )。 类 别 为 c 的 分 布 函数 的 参数 将 只 用 来 训练 类 的 数据 。 
这 个 阶段 可 以 被 看 做 是 一 种 机 器 学 习 的 问题 ， 我 们 将 在 5. 2. 1. 3 节 进 一 步 讨论 。 
5.2. 1.2 类 分 布 的 先 验 知识 

式 〈5-2) 的 第 二 个 变量 是 PCT,=c|X，ji 。 这 是 在 现 有 训练 数据 X、t+ 上 ,目标 属于 
c 类 的 概率 。 它 使 我 们 在 看 到 数据 之 前 ， 能 够 指定 xse* 的 先 验 类 别 。 这 使 我 们 考虑 到 类 别 大 
小 不 均匀 的 情况 。 例 如 ， 也 许 有 一 个 类 别 c 几乎 为 空 。 在 看 到 数据 之 前 ， 我 们 可 能 偏向 于 它 
不 属于 类 别 c (使 PCT=c|X，b 非常 低 )。 这 样 只 有 当 xeev 的 似 然 概 率 特别 高 时 ， 才 将 
它 分 为 类。 另外 ,，c 类 可 能 很 小 ， 但 它 可 能 是 误 分 类 某 些 稀有 实例 的 关键 ,我们 总 想 要 检 
测 它 。 在 这 种 情况 下 ， 将 PCTe。=c|X，b) 赋予 一 个 很 高 的 值 。 这 将 导致 更 多 潜在 xsew 向 量 
被 划 为 < 类 。 当 然 其 中 一 些 将 是 不 正确 的 《实际 上 上， 它们 属于 另 一 个 类 )， 但 我 们 不 会 错过 
许多 真正 属于 c 类 。 我们 在 先 验 概率 的 基础 上 做 出 决策 时 也 可 以 解决 这 些 问 题 。 我 们 将 在 
5.4 节 详 细 讨 论 这 些 问 题 。 

无 论 我 们 的 动机 是 什么 ， 在 选择 p(T 二 c|X，t) 时 的 唯一 技术 限制 是 它们 大 于 零 和 
>JP(T 一 c|X，D 一 1。 两 个 常用 的 选择 是 : 


1) 均匀 先 验 : P(T, 二 cI|X, 1) 一 去 。 
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2) 基于 类 别 大 小 的 先 验 ， PCT 一 <|X，D 一 等， 其 中 N 是 训练 集 的 对 象 数目 、N: 


是 属于 c 类 的 对 象 数量 。 

注意 ， 虽 然 我 们 写 出 关 和 t 条 件 下 的 先 验 , 但 是 它 不 一 定 依 赖 于 半 和 +t。 上 面 两 个 例子 
在 定义 先 验 时 都 没有 使 用 闵 ， 只 有 第 二 个 例子 用 到 了 +t (通过 N,)。 
5.2. 1.3 高 斯 类 条 件 分 布 的 分 类 举例 

图 5-1 中 显示 的 数据 产生 于 3 个 类 别 。 每 个 训练 对 象 为 一 个 2 维 的 属性 向 量 二 [za，zw] 
和 相关 的 标签 二 {1，2，3)}。 类 1 用 黑色 圆圈 标记 ,类 2 用 白色 萎 形 标记 ， 类 3 用 灰色 方块 标 
记 。 考 虑 到 属性 为 实数 ,我们 将 使 用 高 斯 类 条 件 分 布 : 


p(x lo, Wy CAX,1) 人 CH :五 ) (5-3) 


其 中 jp. 和 克 . 需要 根据 类 < 的 训练 点 给 定 。 我 们 将 这 些 点 标注 为 XK 。 这 就 是 一 种 机 器 学 习 的 
任务 一 一 我 们 有 一 些 数据 (X *)， 并 希望 从 中 推断 出 有 关 模 型 的 参数 。 在 这 个 例子 中 ， 我 们 
要 找 出 使 观测 值 X 的 似 然 函 数 最 大 化 的 jp。 和. 。 我 们 也 可 以 使 用 贝 叶 斯 方法 作为 蔡 代 。 例 
如 ， 定 义 参 数 的 先 验 密度 p(n.， 马 )。 根 据 贝 叶 斯 规则 可 以 计算 出 后 验 概率 : 

ps BE) Ix) 一 PX ee ss) pp ,DB) 


plX') 
然后 通过 下 面 的 期 望 值 计算 x 的 似 然 函数 : 
Pxoew | Trew = CX,t) = Ep sax (plXnew | We sD.))} 

假设 将 先 验 概率 p(x.， 瑟 ) 的 选择 与 高 斯 似 然 函 数 相 结合 ， 后 验 概率 和 期 望都 可 以 从 
分 析 中 得 到 。 当 数据 很 少时 ,使 用 贝 叶 斯 分 析 可 以 达到 最 好 的 效果 ， 因 此 jw. 和 于. 的 期 望 值 
是 不 确定 的 。 请 阅读 练习 EX 5.1 和 EX 5.2。 

具有 N 个 数据 点 的 集合 的 高 斯 分 布 的 均值 和 协 方差 的 最 大 似 然 估计 可 以 从 对 每 个 参数 
的 自然 对 数 求 微分 得 到 ， 设 置 为 零 就 可 以 解决 〈 如 在 第 2 章 求 解 线性 模型 一 样 ) 。 省 略 细节 
(参见 练习 EX 5. 3) ， 最 大 似 然 估 计 是 : 








(5-4) 


(CK — Ls) Co — le) (85-5) 


其 中 求 和 公式 只 针对 < 类 数据 的 实例 。 三 个 类 条 件 分 布 如 图 5.2 所 示 (MATLAB 脚本 ; 


plotee. m)s 
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图 5-1 三 类 分 类 数据 集 图 5-2 应 用 式 (5-4) 和 式 (5-5) 对 密度 服从 
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剩 下 的 任务 是 确定 先 验 概率 PCT, 二 c| 关 ,人 四 。 正 如 前 面 提 到 的 ， 通常 选 择 PCT 一 c|X, 由 二 


记 ， 即 c 类 中 训练 点 的 比例 。 在 我 们 的 例子 中 ， 每 类 的 N 一 30， 因 此 PCT 一 <|X，D 一 证 。 


3 
5.2.1.4 预测 
有 了 类 条 件 分 布 和 先 验 概率 后 ， 就 可 以 做 预测 了 。 作 为 一 个 例子 ， 我 们 将 计算 x 二 [2，0]" 
的 后 验 类 条 件 概率 。 对 将 要 计算 的 各 个 变量 求 和 ， 它 们 的 xnew 值 在 表 5-1 中 。 最 后 一 列 给 
式 (5-2) 的 分 子 。 为 了 转化 值 到 概率 ， 我 们 必须 用 三 个 值 的 总 和 “(0. 0046 十 0. 0020 十 
0. 0001= 二 0. 0067) 除 以 每 个 值 。 结 果 概 率 为 : 
PUT = 1|xoew s¥,t)= 0.6890 
PT = 2|xiew,¥,t)= 0.3024 
PT = 3|xsew,X,t) = 0.0087 


表 5-1 对 于 xew = 二 [2，0] 时 高 斯 条 件 贝 叶 斯 分 布 例子 的 似 然 和 先 验 
= csh) PThew 
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从 中 我 们 可 以 看 出 ，xis 属 于 1 类 ( 黑 圈 ) 的 概率 是 属于 2 类 (白色 萎 形 ) 两 倍 ， 而 且 它 不 
可 能 属于 3 类 (灰色 正方 形 )。 

通过 许多 x 的 值 评估 分 类 概率 ， 就 能 画 出 分 类 概率 的 等 概率 线 图 。 这 能 从 图 5-3 中 看 
出 (MATLAB 脚本 : payesclass.m)。 对 于 每 一 类 ， 模 型 分 配 一 个 很 高 的 概率 给 该 类 训 
练 点 构成 的 空间 区 域 。 然 而 ， 有 些 奇 怪 的 效果 。 如 图 5-3a 所 示 : 在 区 域 的 中 左边 ， 大 多 数 1 
类 ( 黑 圈 ) 数据 分 布 的 地 方 ， 有 大 于 0. 9 的 高 概率 。 然 而 ， 在 图 的 底部 右边 ， 没 有 1 类 数据 
(或 来 自任 何 类 的 数据 ) 的 地 方 也 有 高 概率 。 类 似 地 ， 图 5-3b 中 的 2 类 等 概率 线 ， 在 没有 数 
据 属于 2 类 的 图 形 的 右 中 部 有 高 概率 。 这 些 效果 能 通过 观察 图 5-2 中 , 与 1 类 和 2 类 进行 比 
较 的 3 类 条 件 分 布 的 陡峭 度 来 解释 。 它 的 密度 比 1 类 和 2 类 衰退 得 很 快 ， 到 了 3 类 的 右边 。 
1 类 和 2 类 的 密度 函数 都 相对 较 高 。 这 是 一 个 不 好 的 特性 ， 它 似乎 对 图 右边 属于 1 类 或 2 类 
的 高 概率 标签 点 不 敏感 。 它 将 变 得 更 好 ， 如 第 4 章 中 的 二 值 响应 模型 ， 当 我 们 从 数据 附近 移 
动 时 ， 概 率 将 变 得 更 不 确定 。 
5.2.1.5 朴素 贝 叶 斯 假设 

在 以 前 的 例子 中 ， 对 于 条 件 分 布 我 们 使 用 2 维 高 斯 。 这 些 分 布 能 够 获得 每 级 属性 变量 之 
间 的 依赖 关系 。 例 如 ， 我 们 看 到 3 类 条 件 分 布 能 获得 对 于 试验 点 存在 于 zx! 和 之 间 的 强 依 
赖 关 系 。 拟 合 2 维 高 斯 包括 选择 5 个 参数 值 ， 两 个 对 于 jy、3 个 对 于 对 ( 互 是 对 称 的 ， 所 以 
不 在 对 角 线 上 的 元 素 相 等 ) 。 在 每 类 中 有 30 个 试验 点 ,这 是 极其 可 行 的 。 当 维度 增加 时 ， 问 


题 开始 出 现 。 一 般 地 ，D 维 高 斯 要 求 呈 十 D 十 二 个 参数 (D 对 应 于 均值 ， 刀 十 


2 DCP 一 1 对 应 于 协 方 差 矩 阵 ) 。 对 于 10 维 ，30 个 点 不 能 可 靠 地 拟 合 65 个 参数 。 


下 (缺乏 数据 仅仅 能 靠 增 加 数据 来 解决 ) 是 进行 朴素 贝 叶 斯 
假设 : D 维 类 条 件 分 布 能 分 解 为 DD 个 单 变量 分 布 。 换 句 话说 ， 在 特殊 类 上 加 条 件 ， 维 度 
(如 zi 和 xs) 是 独立 的 。 单 变量 高 斯 要 求 两 个 参数 : jy 和 o ”。 因 此 ,DD 维 要 求 2D 个 参 
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数 一 一 当 维 度 为 10 时 这 种 方法 比 原来 所 需要 的 高 斯 参数 能 够 减少 45 个 。 参 数 减 少 的 代价 是 
模型 灵活 性 的 降低 。 在 高 斯 例子 中 ， 它 意味 着 限制 了 类 条 件 分 布 和 轴 对 称 的 形状 一 一 在 维度 
互相 依赖 的 情况 下 不 能 再 使 用 此 模型 。 从 图 5-4 中 可 以 看 得 很 清楚 ， 当 进行 朴素 贝 叶 斯 假设 
时 ， 我 们 看 到 了 类 条 件 分 布 的 密度 等 概率 线 : 
pl [6 Se 三 TT tz 2 

与 图 5-2 比较 ， 清 楚 地 看 到 3 类 模型 不 能 准确 地 反映 数据 特性 。 图 5-5 描述 了 3 个 类 别 
的 分 类 概率 等 概率 线 。 有 趣 的 是 ， 尽 管 我 们 知道 类 条 件 分 布 对 于 3 类 不 是 特别 适合 ， 但 分 类 
等 概率 线 仍然 是 合理 的 〈 尽 管 当 我 们 移动 数据 时 缺乏 不 确定 性 ) 。 


= | 人 
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. 0) POT =3 bss 
图 5-3 应 用 贝 叶 斯 分 类 器 对 高 斯 条 件 分 布 数据 分 类 的 结果 的 等 概率 线 图 


5.2. 1.6 例子 一 一 对 文本 进行 分 类 

机 器 学 习 广 泛 地 用 于 自动 文本 分 类 。 在 这 个 领域 中 从 数据 学 习 很 有 意义 一 一 它 不 是 直接 
人 工 构建 一 系列 的 能 够 用 于 对 文本 进行 分 类 的 规则 或 模型 ， 而 是 使 用 分 类 器 同时 对 大 量 数据 
进行 训练 。 

20 个 新 闻 组 数据 集 是 常用 的 基准 数据 集 ， 用 它 来 评估 新 算法 。 它 包括 大 约 20 000 个 文 
件 ， 每 个 文件 中 存储 20 个 新 闻 组 。 考虑 将 这 20 个 新 闻 组 作为 不 同 的 类 ， 构 建 一 个 自动 将 一 
个 新 文件 分 配 到 这 20 类 之 一 的 分 类 系统 。 这 些 组 涵盖 了 一 系列 不 同 的 主题 ， 其 中 包括 运动 、 
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计算 和 宗教 。 














图 5-5 
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b) P (Tw=2hewew, XD 











Xl 


c) P(T =3k XD 


具有 高 斯 类 条 件 分 布 和 朴素 贝 叶 斯 假设 的 贝 叶 斯 分 类 器 分 类 概率 的 等 概率 线 图 
算法 用 数值 数据 工作 ， 因 此 我 们 需要 一 种 方法 将 文体 编码 为 数值 矢量 。 


这 个 领域 中 最 常 
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用 的 方法 是 词 袋 模型 。 假 如 在 所 有 文档 〈 词 汇 表 ) 中 独特 词 的 总 数 是 M， 每 个 文件 用 M 维 
矢量 表示 。 第 n 个 文件 的 矢量 x,， 由 每 个 单词 出 现 的 次 数组 成 。z 是 单词 m 在 文件 2 中 出 
现 的 次 数 。 

因为 词汇 表 可 能 很 大 ， 所 以 我 们 将 做 朴素 贝 叶 斯 假设 。 因 此 ， 类 条 件 分 布 能 够 通过 将 词 
汇 表 中 的 词 分 解 成 下 面 的 乘积 


pws | Ts C，…) [[ plz, [Ts CC»,***) 
m= 1 


这 意味 着 表示 每 个 类 条 件 分 布 所 需要 的 参数 个 数 与 词 的 数量 大 致 相同 〈 取 决 于 分 布 函数 的 选 
择 )。 词 之 间 增 加 任何 形式 的 依赖 将 导致 我 们 要 适应 的 参数 数量 明显 扩大 。 例 如 ， 假 如 我 们 
检查 成 对 的 依赖 关系 ， 那 么 需要 M: 个 参数 的 顺序 。 假 设 一 个 典型 的 词汇 表 包 括 大 约 50 000 
个 单词 ， 这 已 经 是 一 个 重大 挑战 。 

词 袋 模型 还 假设 单词 的 顺序 不 重要 。 例 如 ，x, 在 下 面 的 两 个 句子 里 是 一 样 的 ， 尽 管 第 
二 个 句子 没有 意义 : 

1) The quick brown fox jumps over the lazy dog. 

* 2) Dog quick lazy the jumps fox brown the over. 

这 个 假设 不 太 严格 : 假如 分 类 器 分 类 一 个 包括 很 多 “baseball” 的 文件 ， 很 可 能 该 文件 
是 关于 运动 而 忽略 单词 的 特殊 顺序 。 注 意 ， 词 袋 模 型 忽略 顺序 但 是 没有 暗示 独立 。 我 们 仍然 
能 定义 类 条 件 分 布 ， 允 许 在 x 的 元 素 之 间 存 在 依赖 。 

对 于 类 条 件 分 布 ， 我 们 将 用 多 项 式 (在 2.3.3 节 中 介绍 )。 向 量 x, 的 多 项 式 分 布 定 
义 为 : 


M 


pee Ele i (5-6) 
这 里 一 x, 和 4 一 [Lo ，…，gx]" 是 参数 ， 每 一 个 都 是 概率 ( >1q。 一 1 ) 。 注 意 ， 多 项 


式 分 布 通过 加 的 乘积 自动 满足 朴素 贝 叶 斯 假设 。 
每 类 都 有 一 个 多 项 式 (因此 一 个 gq)。 因 此 ,我们 需要 基于 训练 对 象 集 x, (对 应 于 类 c) 确 
定 q. 的 值 〈 第 < 类别 的 概率 向 量 )。 我 们 能 用 最 大 似 然 估计 实现 它 〈 见 练习 EX 5.4)， 产生 : 


其 中 ， 仅 在 第 。 类 中 对 个 数据 求 和 。 定 义 先 验 分 布 p(T 一 c|X，4) 一 去 ,使 用 式 5-2) 


进行 预测 。 然 而 ， 在 进行 预测 前 有 个 问题 需要 说 明 。 
5.2. 1.7 平滑 性 

一 个 单词 (如 mr) 从 不 出 现在 一 个 类 别 (如 c 宗 
的 新 闻 组 中 提 及 “棒球 ”。 这 将 导致 g,, 一 0。 回 看 式 (5-6) 一 一 假如 任何 或 更 多 的 gq 二 0 而 且 


zwm 天 0， 那 么 乘积 IT 将 等 于 零 。 换 句 话 说， 我 们 尝试 计算 新 文件 zeew 的 分 类 概率 ， 碰 巧 包 


括 单词 m， 那么 似 然 概率 (CO(xuv | Trow 二 c，q.)) 等 于 零 ， 因 此 PC(Tses 二 c|xwew， XX, 1) 一 0。 
如 果 文 件 包含 没有 出 现在 任何 训练 记录 中 的 单词 ， 则 它 将 不 属于 任何 类 。 这 是 对 训练 数据 过 拟 
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合 的 另外 一 个 例子 ， 我 们 可 以 通过 给 g 增加 一 个 先 验 密度 来 克服 这 个 问题 ， 使 所 有 的 概率 都 大 
于 零 。 一 旦 我 们 定义 了 这 个 先 验 值 ， 我 们 可 以 用 MAP 评估 设置 g 值 ( 见 第 4 章 ) 而 不 是 根据 
最 大 似 然 评 估 。 我 们 也 能 预测 g 的 后 验 密度 ( 见 练习 EX 5.5 和 EX 5.6)。 

对 于 概率 向 量 的 合适 先 验 密度 是 狄 利克 雷 〈Dirichlet) 密度 ， 定 义 如 下 : 


M 
TW a ) M 
m=1 @, 一 1 
deh 


plq.le) = -一 由 oo- (5-7) 


Ip > 
m=1 


我 们 将 通过 假设 a 二 a 进一步 简化 该 公式 一 一 这 个 参数 说 明 狄 利克 雷 密 度 对 每 个 单词 都 
一 样 。MAP 佑 计 值 可 以 通过 对 多 项 式 似 然 函 数 的 乘积 (或 乘积 的 对 数 ) 求 最 大 化 来 获得 
(或 乘积 的 日 志 )。 这 里 省 略 详情 ( 见 练习 EX 5.7)， 对 于 ww 的 MAP 估计 是 : 


N, 
& 一 十 才 > 
于 一 1 


Wi 
而 且 ， 求 和 也 是 仅 对 c 类 训练 对 象 。 对 w 之 1，ow 二 0 和 零 问 题 不 再 是 一 个 问题 。 这 种 技术 经 
第 作为 平滑 的 手段 一 一 如 果 我 们 持续 增加 值 ， 那 么 每 个 单词 的 概率 qw 将 越 来 越 接近 


这 也 可 以 当做 正则 化 的 例子 ( 见 1.6 节 )。 

新 闻 组 数据 被 分 为 训练 和 测试 部 分 ， 各 为 11 000 和 7000 个 记录 。 设 置 a 二 2， 用 式 (5-8) 
确定 4， 设置 先 验 分 类 概率 为 1/20 (20 类 的 均匀 先 验 )， 我 们 可 以 用 式 〈5-2) 计算 分 类 概率 ， 
式 (5-6) 给 出 了 p(xoew | 姑 v 一 c， 玉 人 四， 代替 了 xx。 

对 于 约 7000 个 xwew 向 量 中 的 每 个 向 量 来 说 ， 有 20 个 概率 的 集合 。 评 估 分 类 器 如 何 工 作 
的 最 简单 方法 是 将 每 个 xnew 分 配 到 最 高 概率 的 一 类 ， 并 将 它们 与 已 知 的 标签 进行 比较 。 如 果 
我 们 这 样 做 , :我们 可 以 发 现 分 类 器 正确 的 概率 
为 78%% 一 一 考虑 到 我 们 只 是 用 了 最 简单 的 模 
型 ， 而 且 还 没有 使 用 方法 进行 优化 ， 这 个 结果 
已 经 很 不 错 了 。 

图 5-6 提供 了 对 大 约 7000 个 测试 点 的 分 





Ci (5-8) 


1 
i 


类 概率 的 图 形 表示 (MATLAB 脚本 : ne- 羡 
wspred. m)。 每 行 对 应 一 个 单一 测试 点 , 行 关 
按 真实 类 排序 。 每 列 相应 一 个 预测 类 。 例 如 ， 要 


第 10 列 的 值 给 出 了 属于 第 10 类 的 测试 点 的 概 
率 。 呈现 的 块 状 结构 告诉 我 们 算法 是 合理 
的 一 一 概率 和 它们 的 真实 值 一 样 高 。 从 图 中 可 
以 明显 地 看 出 数据 是 否 分 类 错误 。 例 如 ， 属 于 人 
19 类 的 大 量 测试 点 〈 个 数 第 二 块 ) 被 错误 地 分 为 


、 Re 图 5-6 关于 贝 叶 斯 分 类 器 对 20 个 新 闻 组 数据 
= 这 ey 3 月 乡 j | . = Wy = - - 
17 类 。 这 两 类 来 自 新 闻 组 talk politics 预测 概率 的 图 形 表 示 。 每 行 对 应 一 个 测 





guns 和 talk. politics.misc。 难 怪 这 儿 有 些 试点 ， 测 试点 按 真实 类 顺序 排列 ， 颜 色 
疑惑 一 一 很 多 流行 词 将 被 这 两 类 共享 。 另 一 个 迷 越 白 ， 概 率 越 高 
惑 是 对 于 在 20 类 和 16 类 之 间 的 数据 点 ， 谁 的 真 类 是 20。 这 两 类 来 自 talk religion.misc 和 


soc. religion. christian， 它 们 也 明显 相关 。 分 类 算法 错误 类 型 的 分 析 能 提高 分 类 的 性 能 。 在 
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这 个 例子 中 ，16 类 和 20 类 是 否 应 该 融合 到 一 个 大 类 是 敏感 的 。 如 果 不 融 合 ， 我 们 就 应 该 从 这 两 
类 中 尝试 获得 更 多 的 数据 (文件 )。 
有 许多 方法 对 分 类 算法 产生 的 结果 进行 分 析 。 我 们 将 在 之 后 的 章节 (5.4 节 ) 更 加 详细 
地 讨论 这 些 方法 。 同 时 ， 我 们 将 研究 第 二 类 概率 分 类 。 
5.2.2 逻辑 回归 
尽管 我 们 称 它 为 二 值 响应 模型 ， 但 第 4 章 将 专门 介绍 称 为 逻辑 回归 的 二 值 分 类 。 在 第 4 








章 我 们 没有 从 分 类 的 观点 真正 地 讨论 它 ， 而 是 作为 模型 分 析 贝 叶 斯 推理 不 可 行 。 这 种 方法 的 ”|[179 











详细 介绍 在 第 4 章 ， 这 里 将 不 再 重复 。 然 而 ， 有 几 个 问题 值得 讨论 一 一 我 们 称 为 “压缩 函 
数 ”的 动机 和 模型 的 泛 化 。 
5.2.2.1 动机 

在 第 4 章 ， 我 们 提出 了 膛 辑 似 然 概率 


加 ee 1 
BC Ts 由 | Wi "WwW ) 1 十 exp( 一 we Wow ) 


我 们 想 使 用 熟悉 的 线性 模型 (wm'x),， 但 是 需要 对 其 进行 转换 使 得 输出 为 一 个 概率 (0 三 P 
CT =1 | -w) 过 万 。 

同时 ， 将 它 作 为 动机 没有 任何 错误 ， 但 是 将 逻辑 似 然 概率 转换 为 对 数 差异 比 作 为 最 终结 
果 通 常 更 为 正式 。 这 是 PC(T,ws 二 1 |xoew，w) 和 PCT 二 0 |xww，w ) 之 间 的 比率 对 数 : 


log/ 卫 CTaew = 1 | xnewyzo ) 
s (Per 二 人 


对 这 个 值 没 有 限制 一 一 它 能 取 任 何 实际 值 。 如 果 PC(T=1|xw, w) PT,=0|xow, w)， 
那么 这 个 对 数 比 率 将 取 一 个 大 的 负数 ; 如 果 POT 二 1 | xiow，w) 沁 PO(T,w 一 0|xew，w)， 那 么 它 
将 取 很 大 的 正 值 。 因 此 ， 当 采用 我 们 熟悉 的 线性 模型 建 模 时 ， 采 用 这 种 数量 关系 是 非常 有 用 的 : 


lo 有 (1 — 1X. ) 
I 











一 wx (5-9) 


重新 排列 ， 并 注意 
PTiw = 0 | 而) 三 工 一 下 (IT = 1 | yt) 
对 于 P(T,w=1 | vw )， 我 们 能 得 到 一 个 表达 式 : 


PET 1 | Ro sy) 
log (BT = ox oy ) 


PC Ts 
PE Tew 








POTios = 1 |xoow ,Ww ) (1 exp(w! Xnew )) = exp(TXaew) 
exp(CroTxnew ) 
1 + exp (Ww xuew) 
1 
1 十 exp( 一 记 Xnew ) 
通过 使 用 PC(T, 二 1| xies，w) 的 逻辑 似 然 ， 我 们 用 线性 模型 对 对 数 差 异 比 建 立 模型 。 在 


PT 二 1 Xnew ;Ww ) 一 











PTs = 1 lmgew WW ) = 





统计 中 ， 像 这 种 社区 方法 叫做 广义 线性 模型 一 一 通过 线性 模型 进行 转换 来 构建 需要 的 变量 。 180 











5.2.2.2 非 线性 决策 函数 
在 第 4 章 中 ， 对 于 单个 让 值 的 决策 边界 都 是 直线 。 通 过 拉 普 斯 近似 和 Metropolis-Hastings 
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算法 获得 的 概率 等 概率 线 被 刻画 成 很 多 直线 求 平均 的 结果 。 通 过 扩展 x, 将 x 包含 进来 ， 我 们 
可 以 使 用 第 1 章 使 用 的 非 线性 回归 方法 ， 得 到 类 似 该 方法 的 逻辑 回归 的 非 线 性 决策 边界 。 例 
如 ， 图 5-7a 中 的 数据 显示 了 可 能 要 求 非 线性 决策 边界 的 二 值 分 类 数据 库 。 

用 zi 和 xs 来 表示 单一 属性 (x 二 [x1，xsj」 )， 我 们 可 以 用 下 面 模型 计算 对 数 差 异 比 : 


(5-10) 





log POTsw = 1 | Xuew sw ) 一 wo 十 zl 十 os 十 sz 十 Yo 
有 CT = 0D| wo si ) 3 


为 了 说 明 这 可 能 产生 非 线 性 决策 边界 ， 我们 找到 了 MAP 评估 参数 的 多 ,假设 高 斯 先 验 
plw lo ) 二 NC(0,， oT ( 见 4.3 节 )。 当 然 , 假如 需要 的 话 ， 我 们 还 可 以 将 这 个 模型 如 第 4 章 
所 述 的 多 种 贝 叶 斯 方法 来 处 理 。 





























5 r 一 一 一 一 3 
这 和 如 na 
4r 3 4 上 J 
。 | 
上 | 
3 ee 3 
2| . 1 2 上 ] 
| *, Di Se moe 
| a ogo lb es 号 于 
i 和 , + 
0 Wb of 
事 邓 od | 
—1r [3 二 澳 六 om 一 ] 下 
二 人 小 表 -2 村 中 
= 1 1 上 上 上 -3 1 S 1 1 一 
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b) 拥有 2 阶 术语 模型 的 概率 〈 见 式 (5-10)) 。 这 些 基 于 
参数 的 点 评估 〈 儿 ) 用 牛顿 - 拉 弗 森 优化 获得 


图 5-7 式 (5-10) 描述 的 逻辑 回归 模型 的 二 值 数 据 和 分 类 等 概率 值 线 
将 也 引入 导 辑 似 然 允许 我 们 计算 分 类 概率 : 
PT = 1 |xrew ;WW) 一 


a) 用 非 线性 决策 边界 能 够 更 好 地 对 数据 库 建 模 


1 

1 十 exp( 一 外 "Xvew) 
评估 xuew 值 的 网 格 使 我 们 能 够 在 属性 空间 画 出 属于 类 别 1 的 概率 等 概率 线 。 图 5-7b 中 显示 了 非 
线性 决策 边界 (为 使 轮 廊 清 晰 ， 训 练 点 是 灰色 的 ) (MATLAB 脚本 : nonlinlogreg.m)。 这 
是 逻辑 回归 最 有 吸引 力 的 特性 ， 但 是 必须 记 住 : 在 第 1 章 中 ， 当 使 用 的 线性 模型 越 来 越 复杂 时 
会 出 现 过 拟 合 和 非 普 适 的 问题 ， 这 些 问 题 在 分 类 领域 中 同样 琼 手 。 记 住 这 是 对 于 单 值 w : 在 第 
4 章 中 ， 在 拉 普 拉 斯 和 Metropolis-Hastings 下 获得 非 线性 决策 边界 ， 但 是 仅仅 是 通过 对 许多 不 
同 的 直线 求 平均 。 
5.2.2.3 非 参 数 模型 一 一 高 斯 过 程 

在 本 书 中 ， 我们 把 模型 限制 为 w'x 的 形式 。 这 个 模型 有 一 组 线性 记 参数。 对 x 的 特殊 
增 大 (如 加 平方 项 )， 这 个 函数 属于 一 个 特殊 的 函数 家 族 。 例 如 ， 假 如 其 中 含有 平方 项 ， 则 
它 是 平方 家 族 的 一 员 。 家 族 的 选择 限制 了 函数 的 灵活 性 一 一 假如 我 们 选择 wo 十 wx， 那 么 
我 们 只 能 构建 直线 模型 。 如 果 选 ww 十 wx 十 wx 十 wz， 那么 我 们 只 能 构建 立方 (3 阶 ) 
多 项 式 模型 。 这 样 的 模型 都 是 参数 模型 ， 因 为 它们 属于 特殊 的 参数 家 族 ， 这 里 的 特殊 函数 由 
一 组 w 参数 值 确定 。 

值得 简单 一 提 的 是 ， 另 一 种 非常 灵活 的 选择 一 一 非 参数 模型 。 与 定义 为 某 些 参数 的 函数 
(如 f(x，w)) 不 同 ， 非 参数 模型 以 一 种 通用 的 方式 定义 。 例 如 ， 常 用 的 非 参 数 模型 是 高 斯 
过 程 (GP)。 在 参数 模型 中 ， 首 先 定 义 关 于 先 验 w 的 分 布 ， 不同 的 ww 分布 代表 了 结果 的 不 同 
先 验 分 布 。 使 用 高 斯 过 程 ， 我 们 直接 得 到 函数 输出 值 的 先 验 分 布 。 注 意 非 参数 并 不 意味 着 高 
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斯 过 程 不 需要 任何 参数 ， 而 是 对 函数 不 假设 参数 形式 。 

高 斯 过 程 由 两 个 函数 描述 一 一 均值 函数 u(x)， 描 述 作 为 属性 x 函数 的 平均 函数 值 (x 
可 以 是 标量 或 矢量 ); 协 方差 函数 c(x,，x,)， 定 义 在 x 处 函数 的 输出 与 x 处 输出 的 相似 
度 。 实 际 上 ， 均值 函数 通常 假设 为 0。 

对 于 任何 含有 N 个 数据 点 的 有 限 集合 ， 高 斯 过 程 本 质 上 成 为 N 维 高 斯 分 布 问题 ， 其 均 
值 为 4 二 Lux1)，…，jy(xn)] ， 协 方差 矩阵 为 : 
FrCCXi XI) CXiyKz) “7 CXisXN) 


Cl Ts Sh EC :2 SS Cems Ep 





[IC(XNSIXI) CCXNSX2) … C(xXN,XN) 
对 于 N 个 数据 对 象 的 每 一 个 的 函数 输出 值 ， 依 据 该 高 斯 模型 对 向 量 进 行 采样 。 

由 于 高 斯 过 程 的 灵活 性 ， 它 在 机 器 学 习 中 已 变 得 越 来 越 普及 一 一 高 斯 过 程 没 有 限定 为 某 
一 特殊 的 参数 族 。 在 任何 情况 下 它们 都 可 以 替代 参数 模型 。 例 如 ， 我 们 能 用 高 斯 过 程 对 奥运 
数据 建 模 或 者 在 逻辑 回归 算法 中 替代 w'x,。 这 里 省 略 详细 的 讨论 ,但 是 鼓励 读者 在 机 器 学 
习 领 域 深入 研究 高 斯 过 程 的 使 用 。 


5.3 非 概率 分 类 器 

现在 我 们 将 注意 力 转向 非 概率 分 类 器 。 不 同 于 概率 分 类 器 PCTiov=clxwew，xz，b) 提供 
一 个 类 别 归 属 的 可 能 性 ， 它 们 的 输出 是 一 个 对 象 对 一 个 类 别 的 指定 : tev = 一 c。 我 们 将 关注 两 
个 不 同 的 算法 一 一 K 近邻 算法 (K-Neareat Neighours，KNN) 和 支持 向 量 机 (Support 
Vector Machine，SVM) 。 由 于 它们 杰出 的 实验 表现 ， 它 们 在 机 器 学 习 中 都 深 受 欢迎 。 支 持 
向 量 机 还 提供 给 我 们 关于 核 方法 领域 的 介绍 。 


5.3.1 kK 近邻 算法 
首先 我 们 来 看 看 K 近邻 算法 ， 简 单 的 思想 和 良好 的 实验 表现 使 它 深 受 欢迎 。 它 可 以 同 
时 处 理 二 值 和 多 类 别 数据 ， 并 不 对 决策 边界 的 参数 形式 进行 口 
假设 。KNN 没有 训练 过 程 ， 可 以 通过 对 新 对 象 x 进行 分 类 2 
的 简单 过 程 来 对 其 进行 最 好 的 描述 。 国 
考虑 一 个 常见 的 场景 一 我 们 有 N 个 训练 对 象 ， 每 个 对 Fam 加 
象 都 可 以 描述 为 属性 x 和 标记 4 的 集合 。 为 了 利用 KNN 对 [] 多 测试 点 A， 
xu 进行 分 类 ， 我 们 首先 找到 距离 x 最 近 的 K 个 训练 点 。 然 | 
后 将 As 设置 为 这 些 邻 居 节点 个 数 最 多 的 分 类 。 如 图 5-8 所 示 。 i 
训练 数据 由 属于 两 种 类 别 (灰色 圆 图 和 白色 方 据 ) 之 一 的 数 。 A 7 
电 皮 组成。 两 个 测试 点 标记 为 黑色 攻 形 ， 虚 线 所 本 的 四 图 围 ”人 全 图 
住 了 天 一 3 个 最 近 的 邻居 。 测 试点 A 的 邻居 包含 方 决 类 的 2 个 “| 图 沪 
和 圆圈 类 中 的 一 个 ， 所 以 将 它 分 类 为 方块 类 。 测 试点 巨 的 所 测试 RB / 


有 邻居 都 属于 圆圈 类 ， 因 此 也 将 B 分 为 此 类 。 a 
KNN 算法 的 一 个 缺点 是 ， 当 两 个 或 更 多 的 类 别 拥有 相同 图 5-8 KNN (K==3) 效果 
个 数 投票 时 的 判定 问题 。 例 如 ， 如 果 在 图 5-8 中 K= 二 8， 那 么 演示 图 。 圆 轿 和 方块 
oy ee J 代表 训练 点 ， 萎 形 代 
对 于 每 个 类 别 我 们 都 拥有 4 个 邻居 而 分 不 出 多 少 。 一 种 解决 办 ee dp ee 
法 就 是 从 这 些 类 别 集合 里 随即 指定 一 个 类 别 。 这 种 方法 并 不 被 认定 为 方块 类 ， B 


是 总 是 合理 的 ， 因 为 它 意味 着 对 于 相同 的 x 如果 测 试 多 次 ， 被 认定 为 圆圈 类 
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可 能 得 到 不 同 的 分 类 结果 。 对 于 二 值 分 类 器 ， 一 个 最 简单 的 方法 就 是 总 选取 奇数 个 邻居 节 
点 。 更 一 般 地 ， 可 以 根据 邻居 节点 的 距离 来 给 投票 加 上 权 值 ， 即 距离 越 近 点 的 投票 影响 
越 大 。 

在 图 5-8 中 ,我 们 根据 几何 距离 来 决定 哪些 点 属于 测试 点 的 邻居 。 然 而 ， 我 们 可 以 选择 
任意 我 们 喜欢 的 距离 测量 标准 。 因 此 KNN 算法 是 很 灵活 的 一 一 它 可 以 用 于 任意 可 以 定义 两 
个 对 象 之 间距 离 的 数据 格式 。KNN 成 功 运用 的 其 他 数据 格式 的 例子 包括 字符 串 、 图 形 和 


图 像 。 
5.3.1.1 选择 K 

一 且 我 们 有 了 一 些 数据 并 选择 了 一 种 可 行 的 定义 距离 的 方法 ， 剩 下 唯一 的 工作 就 是 天 
的 选取 。 如 果 K 太 小 ， 分 类 器 就 很 容易 被 噪声 干扰 。 如 图 5-9a (MATLAB 脚本 : knnex- 


ample. m) 所 示 ， 我们 已 经 画 出 了 对 于 某 些 K 二 1 的 二 值 数据 的 决策 边界 (每 个 样本 的 类 
别 由 与 它 最 近 的 节点 的 类 别 确定 )。 边 界 的 大 部 分 看 起 来 很 合理 ,但 却 有 三 个 “ 岛 ” 得 出 
了 过 拟 合 的 结果 。 在 判别 边界 的 错误 区 域 中 占有 一 个 比较 大 的 输入 空间 。 岛 中 心 的 三 个 
点 很 可 能 就 是 噪声 ( 即 错误 标记 点 )。 问 题 的 关键 是 如 何 简 单 准确 地 递增 KK。 图 5-9b 显 示 
的 是 在 KK 二 5 的 决策 边界 下 的 相同 数据 。 包 含 更 多 的 邻居 使 得 边界 更 规则 ， 删 除了 3 个 岛 
区 域 。 




















Xl 
a) K=1 时 的 决策 边界 b) K=5 时 的 决策 边界 
图 5-9 二 值 分 类 器 数据 集 以 及 K==1 和 K=5 时 的 决策 边界 


我 们 看 到 非常 小 的 K 值 是 危险 的 。 如 果 K 值 过 大 会 怎样 呢 ? 随 着 我 们 增加 K 值 ， 我 们 
选取 距离 xrew 更 远 的 邻居 。 在 某 种 程度 上 ， 这 是 非常 有 用 的 。 这 对 于 减少 过 拟 合 的 可 能 性 很 
有 人 作用。 然而， 如果 我 们 继续 增加 K 值 ， 那 么 我 们 将 失去 对 数据 模型 的 正确 模式 。 我 们 考 
虑 一 个 极端 的 例子 : 在 某 些 假设 的 训练 数据 里 ， 类 别 0 和 类 别 1 分 别 有 No 一 50 和 Ni 一 10 
个 点 。 假设 Ni 二 10， 类 别 1 中 的 数据 点 至 多 包含 10 个 邻居 。 因 此 ， 如 果 K 宇 21， 那 么 zew 
永远 不 会 被 分 类 为 类 别 1 一 一 所 有 区 域 都 将 被 分 为 类 别 0! 我 们 来 看 图 5-10a 中 一 个 不 那么 
极端 的 例子 ， 这 里 展示 了 一 个 类 别 0 (白色 圆圈 〉 中 包含 50 个 点 、 类 别 1 〈 灰 色 方 块 ) 中 仅 
包含 20 个 点 的 数据 集 。 图 5-10a 中 K=5 时 的 决策 边界 看 起 来 很 合理 ， 而 图 5-10b 中 天王 39 
时 的 决策 边界 被 推 到 了 最 右上 角 ， 因 为 这 是 包含 更 大 数据 集 的 类 别 发 挥 了 它 的 影响 。 

每 个 类 中 含有 的 数据 的 点 不 同 数据 集 被 认为 是 不 平衡 的 ， 在 机 器 学 习 中 很 常见 ， 在 我 们 
着 手 进行 分 类 分 析 时 应 该 对 这 些 有 所 了 解 。5. 4 节 将 对 这 个 问题 的 更 多 细节 进行 讨论 。 

选择 K 比较 流行 的 方法 是 交叉 验证 ( 见 1. 5.2 节 )。 在 前 面 的 章节 中 ， 当 上 是 连续 的 时 
候 ， 我 们 用 交叉 验证 的 方法 来 优化 平方 损失 。 我 们 现在 要 对 离散 的 〈 分 类 ) 上 寻找 合理 的 方 
法 。 我 们 将 在 5.4 节 中 讨论 各 种 其 他 的 方法 ， 但 现在 我 们 将 使 用 5. 2. 1. 6 节 中 使 用 的 关于 新 
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闻 组 数据 的 简单 的 方法 一 一 分 类 器 犯错 次 数 的 比例 。 图 5-1llb 显示 的 是 随 着 图 5-11a 
(MATLAB 脚本 : knncv. m) 中 给 定数 据 的 天 值 增加 ， 百 分 误差 如 何 改变 。10 折 交 又 验证 
是 为 了 移 除 10 组 数据 中 特定 区 域 的 影响 ， 整 个 过 程 重复 100 次 。 因 此 标记 的 错误 是 10 X 
100 王 1000 次 错误 率 的 平均 值 。 随 着 K 的 增加 ， 当 天 =5 时 分 类 器 的 错误 率 达 到 最 低 ， 随 后 
开始 上 升 ( 当 KK=17 时 有 一 个 小 的 回落 ) 。 























a) K=5 时 的 决策 边界 b) K=39 时 的 决策 边界 
图 5-10 第 二 个 二 值 分 类 器 数据 集 以 及 天 =5 和 二 39 时 的 决策 边界 
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Xl 
a) 二 值 分 类 数据 集 。 注 意 ， 类 不 均衡 性 : 灰色 方块 b) 随 着 K 增 加 的 平均 交叉 验证 误差 
比 白色 圆圈 的 数目 少 
图 5-11 用 交叉 验证 方法 找到 K 的 最 佳 取 值 。 方 法 为 10 折 交 叉 验 证 ， 错 误 率 为 10 个 分 组 与 
100 次 对 数据 不 同 分 组 的 平均 值 


5. 3.2 支持 向 量 机 和 其 他 核 方法 


第 二 个 非 概率 分 类 器 是 支持 向 量 机 (SVM)。 这 些 SVM 是 二 值 分 类 器 (尽管 多 类 扩展 
已 经 提出 )， 并 成 功 应 用 于 很 多 机 器 学 习 应 用 中 。 它 们 的 成 功 是 由 于 它们 的 出 色 实 验 表 现 ， 
并 在 许多 应 用 中 都 很 难 被 打败 。 已 经 发 现 它们 在 属性 个 数 远 大 于 训练 对 象 个 数 的 应 用 中 特别 
有 用 。 这 是 因为 SVM 参数 集 的 个 数 只 与 训练 对 象 的 个 数 有 关 ， 而 与 属性 个 数 无 关 。 

给 定 w' xoew 十 2， 标 准 SVM 使 用 线性 决策 边界 来 给 新 对 象 进 行 分 类 。 将 落 在 这 条 线 一 边 
的 对 象 分 类 为 few 二 1， 另 一 边 的 对 象 分 类 为 ae* 二 一 1 (注意 ， 类 别 标记 为 {1， 一 1)》， 而 不 
是 {0，1}))。 

因此 ，SVM 对 一 个 新 测试 点 xoew 的 判定 函数 定义 为 : 
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trew = Sign (zx 十 0) 懒汉 ] ) 


学 习 任 务 包括 基于 训练 数据 选择 ww 和 2 的 值 。 这 是 通过 寻找 最 大 化 间隔 的 值 的 参数 来 实现 。 
这 与 第 1 章 中 的 最 小 化 损失 、 第 2 章 中 的 最 大 化 似 然 和 第 3 章 中 的 MAP 方法 基本 上 是 相同 
的 方法 。 

5.3.2.1 间隔 

间隔 定义 为 从 决策 边界 到 任 一 边 最 近 点 垂直 距离 。 如 图 5-12 所 示 ， 间 隔 被 定义 为 y。 

图 5-12a 和 演示 了 为 什么 间隔 是 一 个 最 大 化 的 合理 量 值 。 直 观 地 ， 由 最 大 间隔 构成 的 
边界 看 起 来 更 合理 。 而 图 5-12b 的 决策 边界 将 会 将 左上 和 右 下 的 点 分 别 分 类 为 白色 类 和 黑色 
类 ， 这 与 我 们 通常 的 判断 相反 。 观 察 图 5-12a 和 图 5-12b 中 的 间隔 分 别 是 如 何 根据 决策 边界 
和 训练 点 之 间 的 距离 进行 计算 的 。 因 此 间隔 定义 为 边界 及 其 最 邻近 点 的 距离 ， 它 们 随 着 边界 
的 改变 而 改变 。 





a) 最 大 化 间隔 的 决策 边界 b) 非 最 优 决策 边界 
图 5-12 分 类 器 的 间隔 y， 被 定义 为 从 决策 边界 到 任 一 边 最 近 点 的 垂直 距离 


5. 3.2.2 最 大 化 间隔 

可 以 很 简单 地 使 用 每 个 类 别 中 的 点 来 计算 间隔 。 图 5-13 显示 了 这 是 如 何 做 到 的 。x 和 
xs 是 两 个 类 别 中 距离 最 近 的 点 。2yY( 即 间隔 两 倍 ) 等 于 将 和 xz 在 与 边界 垂直 的 方向 上 连 
接 的 联合 向 量 的 分 量 。 

xl 和 xs 的 联合 向 量 定 义 为 x 一 x;， 决 策 边界 的 垂直 方向 定义 为 w/w|。 这 两 个 量 的 
内 积 就 是 我 们 要 的 值 : XI 

3 和 Ce — Ws) 
wl 

我 们 的 决策 函数 1. 二 sign(w xwew 十 5)， 通 过 正 的 常数 按 比例 
缩放 变量 是 不 变 的 。 这 意味 着 我 们 可 以 用 一 个 正 的 常数 4 乘 以 
(wxnew 十 5)， 而 函数 的 输出 不 会 改变 。 因 此 ， 我 们 可 以 按 比 例 调 
节 w 和 65， 使 得 w'x 十 5 二 士 1 这 两 个 最 近 的 点 处 于 边界 的 两 边 。 





这 个 约束 可 以 简化 7 的 表达 式 : 图 5-13 描述 了 计算 
1 间隔 y 的 步 

i (CO— Ns) 又 。 27 等 于 

将 xl 一 如 在 

三 一 上 上 一 与 边界 垂直 

wl 的 方向 上 连 

= 接 的 联合 向 





wl 量 的 分 量 
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二 


| ww 
Al 
| wl 
注解 5. 1 (用 拉 格 朗 日 乘 子 约 束 优化 ) : 在 本 书 不 同 的 地 方 ， 我 们 需要 执行 约束 优化 一 一 在 
满足 某 些 约束 条 件 的 情况 下 ， 找到 一 系列 参数 值 来 最 大 化 (或 最 小 化 ) 目标 函数 。 这 可 以 
通过 使 用 拉 格 朗 日 乘 子 实现 。 特 别 地 ， 我 们 构造 一 个 新 的 目标 函数 ， 使 其 包含 每 个 约束 的 
原始 项 和 新 增 的 项 。 选 择 这 些 项 的 形式 ， 使 新 函数 的 最 优化 等 价 于 这 个 约束 问题 的 最 优化 。 
例如 ,假设 我 们 希望 在 满足 g(w) 三 a 的 约束 条 件 下 ， 最 小 化 f(w): 

argmin f(w) 

满足 g(w) 去 
通过 添加 拉 格 朗 日 项 4(a 一 gC(w)) 生成 一 个 新 的 目标 函数 ， 并 同时 对 w 和 拉 格 朗 日 乘 子 ， 
进行 最 优化 : 





= (5-12) 





argmin f(w)—A(g(w)— 6b) 
满足 和 之 0 
这 里 我 们 并 不 打算 详细 阐释 该 项 如 何 起 作用 。 在 执行 约束 最 优化 时 ， 我 们 都 会 给 出 必要 
的 拉 格 朗 日 项 ,但 是 不 会 详细 说 明 。 关 于 这 些 细节 ， 可 以 参看 本 章 结尾 给 出 的 其 他 阅读 
材料 。 
为 了 实现 最 大 化 间隔 ， 我 们 就 必须 最 大 化 一 一。 然而， 这 里 有 一 些 限制 。 记 得 我 们 


wl 
已 经 决定 了 类 别 1 中 的 最 近 点 ，w' x, 十 6b 二 1。 因 此， 选择 的 w 必须 满足 所 有 类 别 1 的 点 都 满 
足 w'x, 十 b 宇 1。 同 样 ， 它 也 必须 使 得 所 有 属于 类 别 一 1 的 点 都 满足 w'x, 十 5 过 一 1。 将 标记 定 
义 为 士 1 使 我 们 可 以 将 两 个 约束 集 简单 地 表述 为 : 
t,(w xb) 二 1 


因此 ， 我 们 的 学 习 任务 就 是 找到 满足 N 个 约束 CN 是 训练 集中 点 的 个 数 ) 的 y= 一 一 


wl 
的 最 大 值 。 实 际 上 ， 最 小 化 却 |mw 上 更 简单， 因此 我 们 以 计算 实现 。 从 形式 上 ， 最 优化 问题 
就 变 为 : 











| ， 
argmin 5 wl 


满足 (wx 十 6) 宇 1 对 于 所 有 的 nn 
这 是 我 们 第 一 次 遇 到 有 约束 的 最 优化 问题 。 为 了 解决 它 ， 我 们 需要 通过 拉 格 朗 日 乘 子 将 约束 
加 入 到 目标 函数 中 。 拉 格 朗 日 乘 子 给 目标 函数 的 每 个 约束 增加 一 项 ， 这 样 使 得 新 目标 函数 的 最 优 
化 等 价 于 原始 约束 问题 的 最 优化 。 在 我 们 的 例子 中 ， 我 们 需要 NN 个 拉 格 朗 晶 项。 每 项 都 关联 一 个 
拉 格 朗 日 乘 子 ， 并 限定 为 整数 。 不 需要 考虑 拉 格 朗 日 更 多 的 细节 ， 我 们 的 新 目标 函数 为 : 


es ~ 
argmin 3 ww Pont lw x th) — 1) 
满足 a, 宇 0 ”对 于 所 有 的 n 


这 里 我 们 用 到 lw | 二 ww 。 在 目标 函数 w 和 2 的 偏 导数 取 0 的 时 候 ， 这 个 新 目标 函数 取 
得 最 优 解 。 这 些 导数 为 : 


N 
~ 

pi QntnXn 

9 也 和 1 
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3 N 
B36 Zoo 
令 这 两 个 表达 式 等 于 0， 可 以 得 出 满足 最 优化 的 两 个 表达 式 : 
w 一 STR (5-13) 
本 如 一 0 (5-14) 


将 这 两 个 表达 式 代入 到 目标 函数 ， 可 以 得 到 关于 a 而 不 是 w 最 大 化 的 新 目标 函数 : 


1 T 二 
7 Ww 2 tw x tb) 1) 


N N N N 
= (Ct) oth (Faded £6)—1) 
] N N N N 
Pe 之 >， QmQnt mt pS | > QnQnt mt aX mh Xn ee Dant 必 Ss Da 
nm=1 nm= 1 n=1 n=1 


N N 
本 1 5 
一 Da 一 人 六 QmQ nt mtnXmX 
Wl nm=1 


这 里 ,我 们 利用 Dar, 三 0 删除 了 倒数 第 二 行 的 第 三 项 。 这 个 表达 式 被 认为 是 一 个 双重 优 
化 问题 ， 并 且 根 据 下 面 的 约束 进行 最 大 化 : 
Qn > Os Wi = 0 


第 二 个 约束 来 自 式 (5-14)。 注 意 ，w 在 这 个 最 优化 问题 中 已 经 不 起 作用 。 

这 个 最 优化 问题 是 一 个 有 约束 的 二 次 方程 问题 ， 因 为 waw 项 导致 其 为 二 次 方程 。 对 此 
还 没有 分 析 方 法 但 可 以 合理 简单 数字 化 地 解决 。 例 如 ，Matlab 的 函数 quadprog 可 以 解决 
这 类 问题 。 

5. 3.2.3 预测 

假设 给 定 一 个 最 佳 的 w 集合， 我 们 如 何 做 出 预测 ?我 们 的 决策 函数 4c, 二 sign(w xnew 十 5) 
基于 ww 和 8， 不 基于 mw。 为 了 将 它 转变 为 ww 的 函数 ,我 们 用 式 〈5-13) 中 的 表达 式 代 替 w， 
得 到 : 


tnew = sign( Vg i (5-15) 
n=1 


为 了 找到 65， 我 们 将 利用 iCw x, 十 5) = 二 1。 将 式 (5-14) 代入 表达 式 并 重新 排列 ， 可 以 
得 出 5 (注意 ，1/t, 二 1,): 


N 
B= i Ss (5-16) 


其 中 ，x, 为 距离 边界 最 近 的 点 。 现 在 我 们 得 到 分 类 xse。 需 要 的 所 有 条 件 。 
5. 3.2.4 支持 向 量 

距离 最 大 化 间隔 决策 边界 最 近 点 的 集合 称 为 支持 向 量 。 用 这 个 名 字 ， 因 为 这 些 点 定义 或 
者 支持 这 个 决策 边界 。 由 于 决策 边界 由 最 大 化 间隔 得 到 ， 并 且 边 缘 只 取决 于 那些 距离 最 近 的 
点 ， 所 以 我 们 可 以 去 掉 其 他 所 有 的 数据 ， 只 留 下 决策 边界 。 在 取得 最 优化 时 ， 所 有 的 a, 都 
将 取 零 。 如 果 它 们 是 非 零 的 ， 那 么 它们 将 会 对 决策 边界 产生 影响 〈 见 式 〈5-15)) 。 在 许多 应 
用 中 ， 这 是 一 个 很 简单 的 方法 一 一 决策 仅仅 是 训练 例子 的 一 个 小 子 集 的 函数 。 面 对 更 大 数据 
的 问题 ， 这 将 是 一 个 很 有 用 的 特点 。 假 设 当 存在 数 千 个 训练 对 象 的 数据 ， 考 虑 用 KNN 对 测 
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试点 进行 分 类 。 为 了 找到 邻居 集 ， 我 们 不 得 不 计算 新 对 象 与 所 有 测试 对 象 的 距离 。 而 对 于 在 
同样 数据 集 上 训练 的 SVM， 决策 函数 仅仅 包括 训练 数据 的 一 个 小 子 集 。 
图 5-14 显示 了 一 个 二 值 数据 集 和 利用 支持 向 量 〈 灰 色 大 圆圈 ) 求 得 的 决策 边界 


[ 滑 宙 三 pe wTx 十 b 二 0) ”它们 都 是 ,0 且 分 类 新 数据 唯一 能 用 到 的 点 。 


尽管 只 使 用 3 个 训练 点 就 做 出 判断 被 认为 很 高 效 的 ， 但 这 并 不 总 是 好 事 。 图 5-15 (MATLAB 
脚本 : svmhard.m) 阐述 了 原因 。 这 里 我 们 看 到 的 数据 与 图 5-14 中 的 数据 一 样 ， 只 有 一 点 不 
同一 一 属于 灰色 方块 的 支持 向 量 与 另 一 种 类 别 更 接近 。 移 动 这 个 单个 数据 点 对 整个 决策 边界 的 位 
置 有 很 大 影响 。 这 是 另 一 个 过 拟 合 的 例子 一 一 我 们 让 这 个 数据 起 到 了 太 大 的 作用 。 为 了 了 解 它 发 
生 的 原因 ， 我 们 需要 看 最 原始 的 约束 : 





ti(w' xb) 宇 1 (5-17) 

这 意味 着 所 有 的 训练 点 都 必须 处 于 决策 边界 正确 的 一 边 。 这 类 SVM 称 为 硬 间隔 SVM。 

有 时 候 放 宽 这 个 约束 会 更 合理 一 点 (会 有 更 好 的 泛 化 表现 )。 幸 运 的 是 ， 用 软 间隔 会 更 简单 
直接 。 








6 





图 5-14 线性 SVM 的 决策 边界 和 支持 向 量 图 5-15 一 个 线性 SVM 的 决策 边界 和 支持 向 量 。 灰 色 
方块 类 的 支持 向 量 显然 发 挥 了 太 多 的 作用 
5.3.2.5 软 间隔 
为 了 允许 点 可 能 处 于 边界 错误 的 一 边 ， 我 们 需要 放宽 原始 公式 的 约束 。 尤 其 需要 放宽 
式 (5-17) 的 约束 以 便 允 许 有 些 点 落 在 决策 边界 的 间隔 (或 者 落 在 错误 的 一 边 )。 为 了 满足 
这 些 ， 约 束 变 为 : 
t,(w'x, 二 6b) 宇 1 一 &, (5-18) 
其 中 & 宇 09。 如 果 0 委 名 委 1， 那 么 点 位 于 边界 正确 的 一 边 ， 或 者 落 在 边界 上 。 如 果 & 名 之 1， 那 
么 点 就 位 于 边界 错误 的 一 边 。 最 优化 任务 变 为 : 


1 < 
argmin 广 ww 十 C2 & 


满足 6, 宇 0 和 tlw'x, 十 b) 宇 1 一 ”对 于 所 有 的 n 
新 的 参数 C 控制 点 位 于 间隔 带 或 者 决策 边界 错误 一 边 的 最 大 距离 。 如 果 我 们 继续 使 用 
在 硬 间 隔 分 类 中 的 步骤 ， 就 会 发 现 模型 的 这 个 改变 对 于 最 大 化 问题 只 有 很 小 的 影响 。 省 略 具 
体 细 节 〈 见 练习 EX 5.8) ， 我 们 现在 需要 找到 下 面 二 次 方程 问题 的 最 大 值 : 


N 下 N 
argmax > )a, A > Qa nt nlnia Nn 
ba n=1 2 nm=1 
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满足 》\ot, 二 0 和 0 之 a, 之 C， 对 于 所 有 的 n 


唯一 不 同 的 就 是 a, 的 上 界 (C)。 每 个 训练 点 对 于 决策 函数 的 影响 都 是 与 a, 成 正比 的 。 

因此 ， 我 们 给 每 个 训练 点 的 影响 都 增加 一 个 上 界 。 如 图 5-15 中 的 例子 ， 灰 色 类 的 支持 向 量 

有 a 一 5.45。 设 置 C 为 1， 将 会 引起 决策 边界 的 改变 〈 有 些 灰 色 方 块 类 点 的 w 将 变 为 非 

零 ) ， 它 会 向 灰色 方块 类 的 其 他 对 象 方向 移动 。 图 5-16 显示 了 当 C=1 和 C=0.01 时 的 决策 

边界 和 支持 向 量 (MATLAB 脚本 : svnsoft.m)。 随 着 C 的 增加 ， 每 个 训练 点 对 最 大 值 的 

潜在 影响 被 削弱 ， 因 此 越 来 越 多 的 点 在 决策 函数 中 起 作用 。 
1 | 














Xl 


a) C=1 b) C=0.01 
图 5-16 软 间 隔 中 参数 C 的 两 个 不 同 取 值 的 决策 边界 和 支持 向 量 。 离 群 支持 向 量 的 影响 被 削弱 了 
使 用 软 间 隔 ， 我 们 需要 固定 参数 C。 类 似 于 KNN 中 的 K， 我 们 可 以 利用 交叉 验证 来 确 
定 它 。 它 的 方法 步骤 和 误差 估计 与 KNN 是 相同 的 ， 所 以 这 里 我 们 就 省 略 细节 了 。 最 后 的 一 
点 就 是 0 的 计算 。 我 们 不 再 使 用 支持 向 量 来 计算 它 ， 因 为 它们 根本 不 满足 (wx 十 5) 二 1。 
在 边缘 带 中 (或 者 错误 一 边 ) 的 支持 向 量 有 Cw x 十 5) 二 1。 为 了 解决 这 个 问题 ， 应 该 找到 


wx, (或 >) an tnxax, ) 值 最 大 的 支持 向 量 ， 并 利用 式 (5-16) 计算 5。 


5.3.2.6 核 

至 此 ， 我 们 对 SVM 的 研究 始终 局 限于 线性 决策 边界 。 软 间隔 允许 训练 点 落 在 决策 边界 
错误 的 一 边 ， 但 如 果 数 据 如 图 5-17 所 示 的 那样 
复杂 ， 这 就 起 不 到 作用 了 。 如 果 我 们 想 要 一 个 
非 线性 函数 ， 就 需要 给 x 加 上 一 些 项 ， 并 扩展 
w。 用 SYM， 我 们 采用 了 一 个 非常 不 同 的 方 
法 。 模 型 (线性 决策 边界 ) 还 是 一 样 ， 而 是 将 
数据 转换 到 一 个 新 的 空间 中 。 转 换 是 为 了 将 转 
换 后 的 数据 可 以 被 线性 决策 边界 分 类 。 

为 了 阑 明 这 个 观点 ， 考 虑 图 5-17 中 的 数据 。 
这 些 数据 无 法 被 一 条 直线 分 开 。 但 是 如 果 用 
x 一 {zm，zw) 来 代替 每 个 数据 点 ， 用 zz, 二 zn 十 x 
代替 它们 与 源 点 的 距离 ， 就 以 可 以 用 一 条 直线 
来 分 离 它们 : 圆圈 类 的 点 距离 源 点 的 距离 都 比 
方块 类 的 点 远 。 在 SVM 中 用 z 取代 x,， 就 根 图 5-17 线性 决策 边界 无 法 合理 分 类 的 二 值 数 据 集 
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本 不 需要 重新 定义 算法 。 当 我 们 有 一 个 测试 点 xsew 时 ,我们 只 需要 计算 z,。， 并 用 普通 的 方 
法 来 对 它 进行 分 类 。 通 常 ， 我 们 用 $Cxis〉 定义 第 个 训练 对 象 的 转换 。 

也 许 SVM 构架 最 重要 的 特点 就 是 从 不 需要 执行 转换 。 et 数 
据  、xw 、xnew 变 为 它们 的 内 积 : xnx，xnxwew 等 。 我 们 从 来 看 不 到 x 以 它 的 本 身 出 现 。 在 
转换 后 ， 在 新 的 空间 中 计算 内 积 : $(x,)'$(x,)。 ie 然 
后 在 新 空间 中 计算 内 积 。 然 而 ， 我 们 并 不 需要 考虑 转换 的 项 。 相 反 ， 如 果 我 们 对 某 些 转换 
$8(。) 构造 函数 Cx,，x) 二 $Cx,) "$Cx)， 我 们 就 可 以 在 表达 式 中 用 (x,，x) 代替 原始 
空间 中 的 内 积 。 在 某 些 空间 中 与 内 积 有 关 的 函数 称 为 核 函 数 。 

用 核 西数 重新 定义 最 优化 和 决策 本 数 〈 软 边缘 版 ) 为 : 


argmax De, -De Etak (Yi) 
请 是 iat, 一 0 和 0 二 号 后 对 于 所 有 的 n 


N 
biew = sign ( > ant Cx, 天 new 让 十 0) 
n=1 


各 种 各 样 的 核 函 数 (每 个 核 函 数 都 相当 于 某 种 转换 的 一 个 内 积 ) 我 们 都 可 以 使 用 。 下 面 是 三 
种 最 常用 的 核 柄 数 ， 
线性 核 函 数 (x,yx,) 一 XIX。 
高 斯 函数 (xi,x,) = exp{— YC(x, CO— Xx) (x, CO— x )} (5-19) 
多 项 式 函 数 (x,yx,) 一 (1 十 XIxw)7 
线性 核 相当 于 我 们 使 用 的 SYM。 高 斯 核 和 多 项 式 核 更 具有 灵活 性 ， 而 且 都 有 额外 的 用 
户 定义 的 参数 (7) 一 一 通常 经 过 交叉 验证 得 到 。 








图 5-18 是 图 5-17 中 的 数据 当 y 王 1、C 王 3 ee 
10 (所 有 的 ,二 C， 所 以 这 实际 上 是 一 个 硬 边 6 


缘 ) 时 用 高 斯 核 计算 得 出 的 结果 (MATLAB “| 
脚本 : svmgauss. m) 。 这 个 决策 边界 看 起 来 很 1 
合理 。 对 于 原始 的 SVM， 我 们 可 以 计算 出 由  . 
满足 : 

wx 十 b 二 0 .了 
的 x 组 成 的 决策 边界 。 我 们 不 用 再 计算 w ， 因 为 
它 已 经 由 awt,$(x,) 给 出 ， 并 且 我 们 也 不 需要 3 











知道 $Cx,) (我 们 只 知道 ECz，z) 一 wxzT 了 7 上方 Bm 
g% zx))。 因 此 ， 为 了 画 出 决策 边界 ， 我 们 必须 根 a 


据 x 的 坐标 值 估算 > ) awt, Cr ，xevw)， 然 后 根 ”图 5-18 用 图 5-17 中 的 数据 ， 当 核 参 数 7 一 1、 
C=-10 时 用 高 斯 核 计 算出 的 决策 边界 和 

据 》) awtsk (x,，xoew ) 二 0 利用 Matlab 画 出 轮廓 。 支持 向 量 
如 果 我 们 改变 y 会 怎样 ? 修改 7 会 改变 转换 $8(x,)， 进 而 改变 在 原始 域 中 我 们 想 看 到 的 
决策 边界 的 类 型 (它们 在 转换 域 中 是 线性 的 )。 在 高 斯 核 中 ， 增 加 y 会 增加 原始 域 中 决策 边 
界 的 复杂 性 。 当 分 别 用 y= 0.01 和 y= 50 来 比较 图 5-19a、b (MATLAB 脚本 : 
svmgauss. m) 时 ,结果 就 很 明显 了 。 在 图 5-19a 中 ,决策 边界 过 于 简单 一 一 它 不 能 在 原始 
域 中 足够 迅速 地 弯曲 从 而 仅仅 围 住 方块 类 的 数据 。 相 反 ， 当 y= 二 50 (图 5-19b) 时 ， 决 策 边 
界 太 灵 活 ， 使 得 它 看 起 来 过 于 复杂 。 这 两 种 方案 中 ， 值 得 注意 的 是 支持 向 量 的 数量 急剧 增长 
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(参见 图 5-18) ， 解 决 办 法 不 再 认为 那么 少 了 。 

这 个 模型 复杂 度 问 题 与 我 们 在 第 1 章 遇 到 的 问题 是 一 样 的 。 那 里 我 们 发 现 超过 某 一 个 固 
定点 ， 增 加 多 项 式 的 次 数 会 导致 奥运 会 100 米 模 型 出 现 不 好 的 预测 结果 。 这 里 ， 模 型 太 简单 
(图 5-19a) 或 者 太 复杂 (图 5-19b) 都 会 产生 不 好 的 预测 结果 。 在 过 于 简单 的 例子 中 ， 模 型 
过 于 频繁 地 预测 出 灰色 方块 类 ， 而 在 过 于 复杂 的 例子 中 ， 就 恰恰 相反 。 正 如 第 1 章 中 提 到 
的 ， 我 们 必须 很 仔细 地 设置 7/， 以 便 让 复杂 性 适中 ,例如 利用 交叉 验证 方法 。 让 问题 更 糟 的 
是 ， 参 数 C 和 7 会 协同 作用 于 模型 。 我 们 不 能 最 优化 一 个 ， 再 最 优化 男 一 个 ; 我 们 必须 两 
个 同时 做 。 当 训练 集 很 大 的 时 候 (N 很 大 ) 这 相当 成 问题 。SVM 可 以 解决 一 个 N 维 最 优化 
问题 。 对 于 一 个 很 大 的 N， 这 会 非常 费时 ， 而 且 寻 找 两 个 参数 (C，7y) 的 交叉 验证 将 会 执 
行 最 优化 过 程 很 多 过 。 








图 5-19 用 图 5-17 中 的 数据 ， 当 核 参数 C 一 10 时 ， 不 同 的 > 值 用 高 斯 核 计 算出 的 决策 边界 和 支持 向 量 


SVM 并 不 是 唯一 可 以 核 化 的 算法 。 许 多 机 器 学 习 算 法 都 可 以 表述 为 这 种 形式 ， 数 据 都 
以 内 积 形式 存在 。 这 意味 着 在 许多 算法 中 ， 我 们 不 增加 算法 的 复杂 性 ， 就 可 以 解决 复杂 的 问 
题 〈 例 如 ， 高 度 拟 合 非 线性 决策 边界 ) 。 我 们 将 在 第 6 章 研 究 聚 类 时 看 到 另 一 个 例子 。 我 们 
还 可 以 核 化 另 一 个 非 概率 分 类 器 ，KNN。KNN 需要 计算 每 个 x, 和 x 之 间 的 距离 。 这 个 距 
离 可 以 表示 为 : 
(Wag — Wr Caen — Ws 


如 果 我 们 把 它 乘 开 ， 就 得 到 了 内 积 : 


用 核 化 公式 取代 之 后 ， 
Rly rn = BER) yi) 
便 得 到 了 一 个 核 化 的 KNN。 


5. 3.3 小 结 


在 前 面 的 章节 中 ， 我 们 描述 了 4 个 流行 的 分 类 算法 ， 并 叙述 了 它们 的 用 法 。 这 4 个 算法 
为 我 们 之 后 的 学 习 黄 定 了 坚实 的 基础 ， 使 我 们 可 以 用 数据 进行 分 类 试验 ， 并 继续 探索 其 他 的 
分 类 技术 。 

可 以 提供 一 个 特定 的 算法 ， 仅 仅 是 分 类 分 析 的 一 个 部 分 。 另 一 个 重要 应 用 就 是 如 何 分 析 
一 个 分 类 器 的 表现 ， 这 将 在 5. 4 节 中 重点 讲述 。 


5.4 评价 分 类 器 的 性 能 

在 接 下 来 的 讨论 中 ， 假 设 我 们 要 对 N 个 相互 独立 的 测试 点 zx ，…，x, 的 分 类 结果 进行 
性 能 评价 ， 已 知 N 个 点 的 类 别 标号 分 别 为 三 ，…， 上 如 ， 分 类 器 预测 出 的 类 别 标号 为 tt ，…， 
z,。 它 们 是 完全 独立 的 数据 集 或 者 是 一 个 交 又 验证 集中 的 数据 。 


5.4.1 准确 率 一 一 0/1 损失 


当 我 们 需要 表述 对 性 能 的 评估 时 ， 我们 采用 到 分 类 器 的 准确 性 ， 即 0/1 损失 。 至 于 为 什么 
用 这 个 名 字 ， 因 为 对 一 个 特定 的 测试 点 ,损失 或 者 为 0 或 者 为 1， 取决 于 预测 是 正确 的 
(4 二 妈 ) 还 是 错误 的 (4, 关 Ww )。 当 我 们 求 测试 集中 NN 个 对 象 的 平均 值 时 ， 这 个 量 显示 的 是 分 
类 器 错误 分 类 的 个 数 。 这 个 数 可 以 被 解释 为 一 个 随机 测试 点 被 错误 分 类 的 可 能 性 。 显 然 ， 这 个 
值 越 低 越 好 。 尽 管 这 个 方法 被 广泛 应 用 ,但 它 还 是 有 一 些 不 足 之 处 。 特 别 地 ， 如 何 评 价 这 个 量 
并 不 总 是 很 容易 一 一 例如 ，0. 2 怎么 样 ? 考虑 两 个 假设 的 二 值 分 类 器 的 问题 : 第 一 个 ， 我 们 观 
察 每 种 类 别 个 数 相 同 的 数据 ; 第 二 个 ， 类 别 1 中 我 们 取 80%， 类 别 2 中 我 们 取 20%。 在 第 一 
个 例子 中 ，0/1 损失 为 0. 2 的 平均 值 可 能 说 明 性 能 还 不 错 。 而 第 二 个 就 不 见得 了 。 我 们 总 是 将 
对 象 归 为 类 别 1， 却 也 能 得 到 0. 2 的 平均 损失 。 因 此 ， 对 于 类 别 数据 不 平衡 的 数据 ， 运 用 0/1 
损失 的 时 候 应 该 非常 小 心 。 现 在 我 们 将 介绍 一 个 能 够 克服 这 个 问题 的 方法 。 


5.4.2 敏感 性 和 特异 性 . 


想象 一 个 探测 疾病 的 二 值 分 类 任务 。t 二 0 代表 健康 的 人 ，: 一 1 代表 患 病 的 人 。 如 果 我 
们 试图 去 检测 一 种 稀有 的 疾病 ， 那 么 0/1 损失 就 是 一 个 糟糕 的 主意 一 一 诊断 所 有 人 都 健康 就 
能 得 到 非常 低 的 0/1 损失 。 分 析 敏 感性 和 特异 性 这 两 个 值 ， 是 一 个 更 好 的 主意 。 要 计算 敏感 
性 和 特异 性 ， 它 们 需要 从 分 类 结果 中 提取 4 个 统计 值 。 它 们 是 : 

。 正确 的 正 例 (TP) 本 身 为 类 别 i 二 1， 被 分 类 为 t, 二 1 的 对 象 的 数量 〈 患 病 的 








人 被 诊断 为 患 病 ) 。 
。 正确 的 反例 “TN) 一 一 本 身 为 类 别 ti; 二 0， 被 分 类 为 ti, 二 0 的 对 象 的 数量 〈 健 康 的 
人 被 诊断 为 健康 )。 
。 错误 的 正 例 (FP) 一 一 本 身 为 类 别 六 = 二 0， 被 分 类 为 ,二 1 的 对 象 的 数量 (健康 的 
人 被 诊断 为 患 病 ) 。 
。 错误 的 反例 (FN) 一 一 本 身 为 类 别 wr 二 1， 被 分 类 为 1, 二 0 的 对 象 的 数量 〈 患 病 的 
人 被 诊断 为 健康 ) 。 
得 到 这 些 值 ， 我 们 就 可 以 计算 敏感 性 : 
Th 。 
9. 一 TP FN (5-20) 
特异 性 为 : 
"IN , 
Sy, = TN + EP (5-21) 


两 个 值 都 位 于 0 和 1 之 间 。 

一 般 来 说 ， 这 两 个 值 分 别 告诉 我 们 如 何 善于 诊断 出 患 病 的 人 和 健康 的 人 。 敏 感性 是 被 正 
确诊 断 为 患 病 的 人 TP) 与 所 有 患 病 人 TP 十 FN) 的 比 。 特 异性 是 被 正确 诊断 为 健康 的 
人 “TN) 与 所 有 健康 的 人 TN 十 FP) 的 比 。 
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思考 这 个 稀有 疾病 的 例子 ， 如 果 我 们 判断 所 有 人 都 健康 ， 那 么 我 们 得 到 的 敏感 性 将 是 1 
(非常 好 ， 我 们 正确 诊断 了 所 有 健康 的 人 ) ， 但 是 特异 性 却 是 0 (我 们 误诊 了 所 有 患 病 的 人 )， 
这 非常 糟糕 。 理 想 情 况 下 ， 我 们 希望 S. 二 S, 王 1 一 一 完美 的 敏感 性 和 特异 性 。 这 对 于 所 有 的 
应 用 不 并 一 定 合适 ， 我们 需要 定义 如 何 最 优化 敏感 性 和 特异 性 的 值 。 例 如 ，S, 二 0.9、S. 一 
0.8 和 S, 二 0.8、S. 二 0. 9 哪个 更 好 ? 这 个 答案 依赖 于 问题 。 在 我 们 稀有 疾病 诊断 中 ， 我 们 不 
想 漏诊 任何 一 个 患 病 的 人 ， 但 可 以 容忍 将 健康 的 人 诊断 为 患 病 〈 他 们 可 以 通过 更 多 的 测试 ， 
稍 后 被 发 现 是 健康 的 )。 由 此 ， 我 们 可 能 希望 减 小 S, 从 而 提高 S.。 在 其 他 应 用 中 ， 我们 可 
能 采取 相反 的 方法 。 

通常 我 们 将 敏感 性 和 特异 性 设置 为 一 个 固定 的 值 会 很 方便 。 这 可 以 通过 评价 接收 者 操作 
特征 (Receiver Operating Characteristic, ROC) 曲线 下 的 区 域 得 到 。 


5.4.3 ROC 曲线 下 的 区 域 


在 许多 分 类 算法 中 ,我 们 都 提供 一 个 实数 值 的 输出 ， 从 而 根据 闷 值 来 进行 分 类 。 例 如 ， 
在 贝 叶 斯 分 类 器 〈 二 值 ) 和 逻辑 回归 中 ， 我 们 提供 了 P(T 二 1 |xwew， 关 ,由 一 一 值 位 于 0 
和 1 之 间 。 在 SVM 中 ， 我们 提供 了 以 0 为 冰 值 〈 通 过 一 个 标记 函数 ) 的 函数 。 对 于 任何 算 
法 ,我们 都 可 以 使 用 任意 阅 值 来 获得 一 个 硬 分 类 器 。 例 如 ， 我们 可 以 规定 如 果 P(T,==1 
|xz，X，bi) 二 0.7， 那 么 x, 就 应 该 属于 类 别 1。 在 SVM 中 ， 我 们 可 以 将 阀 值 定 为 0. 2 而 不 
是 0， 从 而 使 得 x, 更 不 容易 被 分 类 为 类 别 1 。 

接收 者 操作 特征 CROC) 曲线 让 我 们 可 以 观察 随 着 阔 值 的 改变 ， 性 能 是 如 何 变化 的 。 
由 一 系列 净值 计算 得 出 了 敏感 性 和 特异 性 ,描绘 了 敏感 性 和 特异 性 或 者 假 阳 率 (1 一 S,) 如 
图 5-20 所 示 (MATLAB 脚本 : svmroc. m) 。 这 些 曲线 是 由 图 5-19a 和 图 5-19b 中 太 简 单 和 
太 复 杂 的 模型 用 1000 个 独立 测试 集 计 算得 到 的 。 我 们 知道 我 们 想 让 S. 和 S， 尽 可 能 地 高 。 
因此 ， 曲 线 越 接近 左 项 点 (5S. 二 1，1 一 5S, 二 0) 越 好 。 如 果 曲 线 达 到 左 顶 点 ， 说 明 我 们 可 以 
选择 一 个 可 以 完美 分 类 数据 的 冰 值 。 这 条 曲线 总 会 从 S. 二 0、1 一 5S, 二 0 处 开始 ， 意 味 着 这 个 
阔 值 永远 不 会 把 数据 分 类 为 类 别 1， 并 且 在 S$.=1、1 一 S 王 1 处 结束 ， 意 味 着 分 类 器 永远 不 
会 将 数据 分 类 为 类 别 0 (在 SVM 中 是 一 1)。 随 着 分 类 器 变 差 ， 曲线 将 逐渐 趋向 于 一 条 从 
(0，0) 到 (1，1) 的 直线 。 这 相当 于 随机 进行 分 类 。 
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图 5-20 图 5-19a、b 中 的 SVM 的 ROC 曲线 
基于 图 5-20 的 显示 ,7 二 50 的 SVM 更 接近 于 左 顶 点 ， 因 此 它 比 yx=0.01 好 。 我 们 可 以 


通过 计算 ROC 曲线 下 方 的 区 域 〈 称 为 AUC) 来 评估 性 能 。 一 个 能 够 完美 分 类 数据 的 分 类 器 
应 该 有 大 小 为 1 的 AUC (曲线 沿 着 左手 边 垂 直 升 到 左 顶 点 ， 在 径直 穿 过 顶 边 ) 。 随 机 分 类 的 
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分 类 器 的 AUC 是 0.5 (正如 上 面 提 到 的 ， 曲 线 变 为 一 条 从 (0, 0) 到 (1，1) 的 直线 )。 
图 5-20 中 曲线 的 AUC 分 别 是 0. 8348 和 0.9551。 在 | 
图 5-21 中 ， 我 们 绘制 了 当 y 王 1 (图 5-18 中 的 SVM) 
时 的 ROC 曲线 。 这 个 例子 中 的 AUC 为 0.9936 一 一 
正如 我 们 期 望 的 ， 它 是 三 个 中 最 好 的 。 0.6 
在 大 多 数 应 用 中 ，AUC 是 一 个 比 0/1 损失 更 好 写 
的 评价 性 能 的 方法 。 它 利用 敏感 性 和 特异 性 来 考虑 ”中 
类 别 数据 的 不 平衡 性 。 它 的 一 个 缺点 就 是 无 法 扩展 02| 
到 多 值 分 类 器 。 把 它 用 在 多 值 分 类 器 中 的 一 个 办 法 
就 是 以 多 个 二 值 问 题 的 形式 来 分 析 分 类 器 的 结果 。 0 02 04 06 08 1 
例如 ， 如 果 我 们 有 个 3 个 类 别 ， 我 们 可 以 做 3 个 
ROC， 每 个 ROC 都 是 考虑 是 否 为 类 别 c 的 二 值 问 ”图 5-21 图 5-18 中 SVM 的 ROC 曲线 。 这 
题 。 这 将 会 提供 每 个 分 类 器 有 用 的 信息 ， 但 是 如 何 由 
将 3 个 AUC 值 组 合 起 来 却 并 不 清楚 。 我 们 现在 看 看 
最 后 一 个 能 够 简单 〈 并 且 非 常 有 效 ) 扩展 到 多 值 分 类 器 的 性 能 分 析 工 具 。 


0.8| 











5.4.4 混淆 矩阵 


5. 4.2 节 中 介绍 的 4 个 值 (TP、TN、FP、FN) 经 常 在 一 个 表 中 出 现 。 在 一 个 有 两 种 
类 别 的 例子 中 ， 这 个 表 会 有 两 行 和 两 列 。 行 代表 预测 的 类 别 (1)， 列 代表 实际 的 类 别 (1* ) 。 
表 5-2 显示 的 就 是 这 样 的 表 ， 即 混淆 符 阵 。 二 值 问题 的 混淆 和 矩阵 仅仅 描述 4 个 值 。 然 而 ， 混 
淆 矩阵 真正 发 挥 作用 的 是 在 多 类 问题 中 。 一 个 含有 20 个 类 新 闻 组 数据 的 混 消 矩阵 有 20 行 和 
20 列 ， 并 且 可 以 让 我 们 发 掘 算法 的 好 坏 ， 如 表 5-3 所 示 。 乍 看 起 来 ， 它 可 能 很 复杂 、 不 好 
用 ， 但 它 能 合理 直接 地 提取 有 用 的 信息 。 例 如 ， 对 角 线 上 的 大 值 告诉 我 们 ， 整 体 上 ， 分 类 器 
性 能 很 好 。 非 对 角 线 上 比较 大 的 元 素 说 明 对 数据 做 出 了 规律 性 的 错误 分 类 。 例 如 ，68 个 原 
本 属于 类 别 20 的 元 素 被 错误 地 分 类 为 类 别 16 一 一 我 们 已 经 在 5. 2.1.6 节 中 讨论 过 的 现象 。 
同样 ， 大量 属 于 类 别 19 的 元 素 被 错误 地 分 类 为 类 别 17。 这 样 的 分 析 不 仅 让 我 们 发 现 错误 在 
哪里 〈 如 果 我 们 简单 计算 0/1 损失 就 无 法 得 到 这 些 细节 )， 而 且 给 我 们 提供 如 何 提高 性 能 的 
建议 。 在 5. 2.1.6 节 中 ， 我们 看 到 类 别 20 和 类 别 16 非常 相似 ， 类 别 19 和 类 别 17 也 是 。 也 
许 区 分 它们 本 身 就 很 困难 。 类 别 20 最 容易 被 错误 分 类 ， 所 以 如 果 我 们 想 提 高 性 能 ， 我 们 就 
应 该 考虑 一 一 收集 更 多 的 信息 或 者 将 它 与 其 他 类 别 合 并 。 


表 5-2 ”二 值 混淆 矩阵 
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( 续 ) 
真 类 
1 2 3 4 5 6 7 8 9 10' | 11 | 12 | 13 | 14 

4 0 12 a 303| 36| 12| 46 2 0 1 0 | 28 3 0 0 0 0 0| 0 
5 0 8 | 10 22| 277 2| 21 0 0 1 0 2 7 0 0 上 1 0 前 | 0 
6 ] 21 | 30 2 2| 304 0 1 0 3 0 1 3 0 1 2 0 0 上 | 从 
7 0 1 0 5 5 1| 235 5 1 2 0 1 1 0 0 0 1 0 0| 0 
8 0 3 1 6 4 0| 31| 356| 25 3 1 0 9 4 0 0 2 2 1| 0 
9 0 2 2 0 1 2 5 4| 353 1 0 0 2 0 1 0 1 1 0| 1 
10 0 0 2 0 1 0 2 2| 348 4 0 0 1 0 0 1 1 0| 0 
预 1 1 0 1 1 0 0 1 0 0| 16| 382 0 1 0 1 0 有 1 0| 0 
测 | 12 1 16 | 16 5 4| 10 3 1 ] 2 0| 360| 45 0 4 1 3 4 3| 了 
类 13 4 24| 16 0 9 5 J 2 0 3| 260 3 4 0 0 0 0| 0 
14 2 3 8 0 2 0 0 2 2 324 4 1 1 0 3| 3 
15 3 7 2 3 3 2 0 0 1 0 3| 336 0 2 0 7| 沪 
16 | 38 4 0 上 3 1 1 3 2 2 17 4| 376 3 7 2|68 
0 3 1 : 5 4 1 0 9 3 1 3 3| 95|19 
1 0 1 3 2 2 各 0 4| 5 

2 6 2 5 5 8 4 8 1 

0 0 0 1 0 0 0 1 2 


























5.5 判别 式 和 产生 式 分 类 器 


在 我 们 的 讨论 中 ,我 们 将 分 类 器 分 为 概率 方法 的 和 非 概率 方法 的 。 另 一 个 常见 的 方法 是 
根据 分 类 器 是 判别 式 还 是 产生 式 来 进行 分 类 。 产 生 式 分 类 器 为 每 个 类 别 定义 一 个 模型 ， 然 后 
将 新 元 素 指定 为 最 适合 它们 的 模型 。 另 一 方面 ， 判 别 式 分 类 器 清楚 地 定义 类 别 之 间 的 决策 边 
界 。 贝 叶 斯 分 类 器 〈5. 2. 1 节 ) 是 产生 式 分 类 器 的 例子 ,而 SVM (5. 3.2 节 ) 和 逻辑 回归 
(5. 2.2 节 ) 是 判别 式 分 类 器 的 例子 。 


5.6 小 结 


本 章 介绍 了 4 种 流行 的 分 类 算法 一 一 两 种 提供 概率 输出 ， 两 种 提供 硬 分 类 。 在 现 有 的 领 
域 中 我 们 无 法 公正 地 评价 它们 一 一 本 书 是 用 SVM 和 其 他 单独 的 核 函 数 写 。 然 而 ， 现 有 的 资 
料 应 该 足够 读者 使 用 和 进行 实验 。 男 外 ， 本 章 也 提供 了 关于 分 类 整体 问题 和 各 种 类 型 分 类 算 
法 足够 的 背景 知识 以 便 读者 能 够 发 所 其 他 算法 并 将 之 归 类 。 

除了 描述 算法 外 ， 我 们 还 关注 了 如 何 评价 分 类 器 的 好 坏 以 及 一 些 我 们 可 能 遇 到 的 问题 。 然 
而 ， 我 们 紧 紧 接触 了 表面 。 还 有 许多 不 同 领域 的 性 能 评价 方法 和 许多 我 们 可 能 遇 到 的 问题 。 


5.7 练习 


EX 5. 1 假设 对 于 所 有 的 类 有 允 王 IT， 对 于 贝 叶 斯 分 类 器 的 某 一 及 计算 其 后 验 密度 p (pj. |X)， 其 中 第 c 类 
的 训练 数据 由 xi ，…，xNv 表 示 。 假 设 p(x.) 服从 高 斯 分 布 。 
EX 5.2 使 用 上 一 题 中 计算 出 的 后 验 概率 计算 期 望 似 然 函 数 
Pxnew | Taew = co, = Ey, lx (pxoew | ps 5.)} 
EX 5.3 计算 贝 叶 斯 分 类 器 的 第 c 类 的 参数 4. 与 允 . 的 最 大 似 然 估计 ， 假 设 其 服从 高 斯 类 条 件 分 布 且 第 c 类 
的 训练 数据 由 zx ，…，xn 表示 。 
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EX 5.4 计算 贝 叶 斯 分 类 器 的 第 c 类 的 参数 gw 的 最 大 似 然 估 计 ， 假 设 其 服从 多 项 式 类 条 件 分 布 且 N. 中 的 
M 维 对 象 由 x1，…，xw, 表示 。 
EX 5.5 对 于 一 个 具有 多 项 式 类 条 件 分 布 的 贝 叶 斯 分 类 器 ， 其 参数 g. 具有 M 维 ， 当 q. 的 先 验 分 布 为 参数 
为 常数 a 的 狄 利克 雷 分 布 时 ， 计 算 第 c 类 的 后 验 狄 利克 雷 ， 第 c 类 的 训练 数据 由 xi ，…，xw 表示。 
EX 5.6 使 用 上 一 题 中 计算 出 的 后 验 概率 计算 期 望 似 然 函 数 
Pxnew | Taew = cs Kt) = Ec lxe) {p(xnew | q.))} 
EX 5.7 使 用 EX 5.4 中 计算 出 的 结果 计算 gj, 的 MAP 估计 。 
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第 6 章 | 


A First Course in Machine Learning 


聚 类 分 本 


到 目前 为 止 ， 我 们 一 直 关 注 有 监督 学 习 。 在 所 有 的 任务 中 ， 我 们 得 到 的 数据 是 一 组 数据 
对 象 及 其 相关 的 标签 (或 目标 )。 例 如 ， 由 奥运 会 举办 年 所 构成 的 对 象 和 相应 百 米 比赛 获胜 
时 间 的 目标 ;由 文档 组 成 的 对 象 及 其 类 别 组 成 的 目标 。 目 标书 的 存在 使 得 这 些 任 务 得 到 了 
监督 。 

有 时 我 们 得 到 的 对 象 是 无 标签 的 。 分 析 这 种 数据 需要 使 用 无 监督 机 器 学 习 技 术 。 初 看 起 
来 ， 也 许 很 难 理 解 用 这 样 的 数据 能 够 做 什么 。 当 然 ， 如 果 只 知道 现代 奥运 会 的 举办 年 ， 的 确 
没有 太 多 事情 可 以 做 。 

在 本 章 和 第 7 章 中 ， 我 们 将 学 习 两 种 广泛 使 用 的 ， 用 于 这 种 无 监督 情况 的 机 器 学 习 技 
术 。 本 章 介 绍 第 一 种 : 聚 类 (clustering)， 我 们 具体 将 关注 两 种 聚 类 方法 一 一 K 均值 (K- 


means) 和 混合 模型 (mixture models) 。 





6.1 一 般 问 题 


聚 类 分 析 的 目标 是 ， 创 建 满 足 处 于 同一 组 内 的 对 象 相似 、 不 同 组 的 对 象 相 异 的 对 象 分 
组 。 有 很 多 定义 两 个 对 象 相似 的 方法 。 在 相似 度 定 义 的 基础 上 ， 也 有 多 种 进行 分 组 的 方法 。 
在 详细 介绍 之 前 ， 我 们 先 来 了 解 一 些 聚 类 分 析 的 例子 。 

顾客 偏爱 : 设想 你 运营 一 个 大 型 的 在 线 商城 ， 想 为 用 户 提供 个 性 化 购物 体验 。 你 的 目的 
并 非 完 全 利他 的 一 一 而 是 希望 通过 改善 购物 体验 ， 增 加 用 户 消 费 。 一 种 方法 是 向 每 一 位 用 户 
提供 一 套 独特 的 建议 ， 即 让 他 们 看 到 访问 你 网 站 的 时 间 。 虽 然 你 不 能 直接 知道 每 个 用 户 的 个 
人 喜好 和 品味 ， 但 你 有 大 量 的 数据 一 一 每 个 用 户 产生 的 全 部 购买 记录 。 这 是 经 典 的 机 器 学 习 
问题 一 一 没有 基本 模型 ， 而 只 有 大 量 数 据 。 

假设 我 们 能 够 基于 消费 者 的 购物 历史 定义 他 们 之 间 的 一 种 相似 性 度量 ， 就 可 以 利用 聚 类 
分 析 将 消费 者 分 为 K 组 。 在 每 组 中 ， 消 费 者 具有 相似 的 购物 模式 。 同 一 组 中 消费 者 的 差异 ， 
可 以 作为 推荐 系统 的 基础 。 例 如 ， 因 为 消费 某 些 相同 的 商品 ， 消 费 者 A 和 也 同属 于 一 个 聚 
类 一 一 也 许 他 们 都 对 某 种 体育 项 目 感 兴趣 。 然 而 ， 消 费 者 A 又 另外 买 了 一 些 商品 ， 而 也 没 
有 。 根 据 相 似 性 的 大 小 ， 为 消费 者 B 推荐 这 些 商品 是 有 一 些 道理 的 。 

也 可 以 利用 购买 的 消费 者 信息 ， 通 过 聚 类 分 析 商 品 来 建立 推荐 系统 。 如 果 商 品 1 和 2 都 
被 消费 者 A、D、F 和 C 购买 ， 则 可 以 认为 这 些 商 品 是 相似 的 。 然 后 可 以 为 消费 者 推荐 与 其 
已 经 购买 商品 相似 〈 在 这 个 意义 上 说 ) 的 商品 。 

基因 功能 预测 : 分 子 生物 学 中 大 量 研究 工作 涉及 将 基因 分 类 到 特定 功能 类 别 的 问题 一 一 
一 个 具体 基因 发 挥 什么 作用 ? 它 的 目的 是 什么 ? 一 个 潜在 的 信息 来 源 是 mRNA 基因 芯片 数 
据 (microarray data) 一 一 描述 基因 在 特定 生物 样本 中 活动 的 数值 量 。 随 着 时 间 的 推移 ， 对 
于 一 组 基因 ， 这 种 活动 是 可 以 测量 到 的 。 如 果 基 于 这 种 表示 方法 聚 类 基因 ， 则 得 到 一 个 基因 
的 分 组 ， 使 得 同一 组 内 基因 随 着 时 间 推 移 表 现 出 相似 的 行为 。 考 虑 一 个 包括 10 个 基因 的 组 
〈 聚 类 )， 已 知 其 中 一 半 的 基因 功能 ， 而 另 一 半 的 功能 是 未 知 的 。 在 没有 其 他 证 据 的 情况 下 ， 
假设 未 知 的 一 半 基 因 具 有 与 功能 已 知 基因 相同 或 相似 功能 也 许 是 合理 的 。 这 不 会 总 是 得 到 正 
确 的 功能 ,但 对 于 进一步 的 分 析 是 一 个 很 好 的 开始 。 

在 这 个 例子 中 ， 聚 类 分 析 所 得 到 的 数据 结构 使 我 们 能 够 做 出 某 些 与 对 象 有 关 的 预测 。 有 
趣 的 是 ， 这 个 问题 也 可 以 看 做 是 有 监督 分 类 问题 ， 其 中 已 知 功 能 的 基因 作为 训练 集 (类别 标 
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签 由 不 同 的 功能 组 成 )、 未 知 的 基因 作为 测试 集 由 算法 对 其 进行 类 别 标记 。 


6. 2 kK 均值 聚 类 

图 6-1 所 示 的 数据 中 ,包括 100 个 对 象 x ，…，zioo， 每 个 对 象 由 两 个 属性 表示 : x 二 
Lx，zz」 。 在 我 们 绘制 分 类 数据 图 时 ， 属 于 
不 同类 别 的 对 象 用 不 同 的 符号 表示 。 现 在 我 们 
没有 类 别 信息 一 一 所 有 的 点 看 起 来 是 一 样 的 。 

如 果 手 动 将 这 些 对 象 分 为 包含 相似 对 象 的 
组 时 ， 你 可 能 会 得 到 这 样 的 结论 ， 有 3 组 。 虽 
然 有 少 部 分 比较 难 分 (如 点 x 之 [2. 5， 一 1]')， 
但 大 部 分 对 象 很 容易 分 入 3 个 组 中 之 一 。 

通过 这 种 方式 聚 类 分 析 数 据 ， 我 们 隐 式 地 十 
义 了 相似 性 的 含义 一 一 相似 的 对 象 是 指 相 互 之 间 
距离 平方 近 的 对 象 (如 果 (x 一 x)" (x 一 xj) 二 (x 
一 ZY 十 (zz 一 Xx) 较 小 ， 则 i 和 j 相似 )。 在 没有 
与 数据 或 聚 类 分 析 目 标 相关 的 附加 信息 情况 下 ， 这 pe 
是 一 个 合理 的 相似 性 度量 。 还 有 一 些 可 能 更 合适 的 
其 他 相似 性 定义 方法 ， 例 如 马 氏 (Mahanalobis) 距离 (x 一)"A(x; 一 x;)。 这 些 距 离 都 适合 实数 数 
据 。 而 对 于 其 他 类 型 〈 如 文本 ) 的 数据 ， 则 需要 不 同 的 距离 度量 。 

为 了 设计 能 够 自动 实现 这 种 分 组 的 算法 ,我 们 需要 更 形式 化 地 定义 什么 是 聚 类 。K 均 
值 将 聚 类 定义 为 具有 代表 性 的 点 ， 就 像 一 个 数据 对 象 。 该 点 为 聚 类 中 对 象 的 均值 (mean) 
(因而 称 为 K 均值 )。 我 们 将 用 jw 表示 第 & 个 聚 类 的 平均 点 ; zw 为 一 个 二 值 标志 变 量 ， 其 中 
1 表示 对 象 n 被 分 配 到 聚 类 k 中 ; 否则 ,为 0。 每 个 对 象 必须 并 且 只 能 分 配 到 一 个 聚 类 中 ， 
即 了 zw 一 1 。 由 此 我 们 得 出 如 下 Au 的 表达 式 : 


>. 
HL: 一 Pp 


每 个 对 象 被 分 配 到 最 近 的 聚 类 ， 即 使 (x, 一 jx) (x 一 ux) (或 者 其 他 适合 的 距离 ;的 值 最 小 
的 聚 类 &。 

这 是 一 个 循环 的 推理 : 将 分 配 到 这 些 点 上 的 中 心 定 义 聚 类 ， 同 时 点 又 被 分 配 到 它们 最 近 
的 聚 类 。 如 果 知 道 聚 类 jp; ，…，jx ， 我 们 就 可 以 计算 这 些 点 的 分 配 ， 但 如 果 没 有 这 些 分 配 ， 
就 无 法 计算 聚 类 。 开 均值 聚 类 通过 一 种 迭代 方案 解决 了 这 个 问题 。 从 聚 类 均值 pv ，…，jx 
的 初始 〈 随 机 ) 值 开 始 : 

1) 对 每 个 数据 对 象 x,， 找 到 使 x, 一 jx) (x, 一) 〈 即 找到 距离 最 近 的 聚 类 均值 ) 最 
小 的 &， 并 设置 z 二 1 和 zw 一 0， 满足 所 有 的 j 关 k。 

2) 如 果 所 有 分 配 (zm)〉 较 前 一 次 迭代 没有 变化 ， 则 停止 。 

3) 按照 式 (6-1) 更 新 每 个 J。 

4) 返回 到 1)。 

图 6-2 描述 了 该 算法 对 图 6-1 所 表示 数据 的 执行 过 程 (MATLAB 脚本 : kmeansexam- 
ple. m)。 图 6-2a 表示 的 是 对 均值 的 初始 选择 ( 较 大 的 符号 ) 和 带 有 与 最 近 均 值 相同 符号 的 
数据 对 象 。 利 用 式 (6-1) 更 新 均值 ， 图 6-2b 显示 了 这 些 均值 向 它们 的 新 位 置 移动 。 现 在 ， 








(6-1) 
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均值 已 经 改变 ， 需 要 重新 分 配对 象 ， 图 6-2c 表示 了 新 的 分 配 和 均值 结果 的 变化 。 图 6-2d、e 
分 别 表 示 3 次 和 5 次 迭代 后 的 状态 。 在 8 次 迭代 后 ， 算 法 已 经 收敛 ,最 终 的 分 配 ( 聚 类 ) 结 
果 如 图 6-2f 所 示 。 点 在 x, 二 L2.5， 一 1] 似乎 被 错误 地 分 配 一 一 这 是 由 于 坐标 尺度 的 问题 。 
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a) 数据 和 初始 随机 均值 。 均 值 由 大 的 符号 
表示 ， 每 个 数据 对 象 由 与 其 最 近 均 值 的 符号 表示 b) 依据 对 象 分 配 更 新 均值 
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c) 将 对 象 重新 分 配 到 新 的 均值 ， 均 值 再 次 更 新 d) 3 次 迭代 后 更 新 的 均值 
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e) 5 次 迭代 后 更 新 的 均值 f) 8 次 迭代 后 更 新 的 均值 ， 算 法 已 收敛 


图 6-2 均值 算法 描述 。 数 据 对 象 由 小 的 符号 表示 ,均值 由 大 的 符号 表示 。 对 象 由 其 被 分 配 均 值 的 符号 表示 
这 种 迭代 方案 能 够 保证 收敛 到 下 面值 的 局 部 最 小 : 
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N kK 
D= D0 Sm (6-2) 
oD 


式 (6-2) 可 以 理解 为 所 有 对 象 与 它们 对 应 聚 类 中 心 的 距离 之 和 。 然 而 ， 并 不 能 保证 得 到 可 
能 的 最 小 值 〈 即 全 局 最 小 值 ) 。 是 否 能 够 得 到 全 局 最 小 值 取决 于 聚 类 均值 的 初始 选择 。 对 与 
K 均值 算法 ， 该 问题 是 无 法 完全 解决 的 ， 除 非 我 们 能 够 评价 NN 个 对 象 与 K 个 聚 类 的 所 有 分 
配方 式 ， 而 这 即使 对 于 很 小 的 N 和 K 都 是 不 可 行 的 。 一 定 程度 克服 这 种 不 足 的 更 常用 方法 
是 从 多 个 随机 初始 点 运行 算法 并 选择 总 距离 最 小 的 解 。 


6.2.1 聚 类 数目 的 选择 

为 了 使 用 K 均值 ， 我 们 需要 选择 K 值 一 一 聚 类 数目 。 确 定 聚 类 的 数目 是 聚 类 分 析 中 常 
见 的 问题 。 前 面 讲 到 ，K 均值 产生 与 式 (6-2) 的 局 部 最 小 值 相对 应 的 聚 类 结果 。 遗 憾 的 是 ， 
D 并 不 完全 合适 ， 这 很 类 似 于 似 然 是 一 个 差 的 模型 选择 标准 ( 它 单调 递增 ,而 模型 更 加 复 
杂 ， 如 图 2-11a 所 示 )。 图 6-3 显示 了 当 KK 增 
加 时 的 log D (MATLAB 脚本 : kmeanK. m) 。 
对 每 个 K 值 ， 我 们 采用 50 次 算法 的 随机 初始 
化 ， 盒 状 图 表示 中 间 值 、25%、75% 以 及 离 群 
点 。 很 明显 ，log D (也 就 是 D) 随 着 K 的 增 
加 而 降低 。 当 K 增加 时 ， 较 大 的 聚 类 将 被 分 
解 为 更 小 的 部 分 。 聚 类 越 小 ， 每 个 点 离 它 的 聚 
类 均值 越 近 (平均 ), 减少 了 其 对 DD 值 的 贡 
献 。 考 虑 KK 二 N 的 极端 情况 ， 当 每 个 聚 类 只 包 
含 一 个 对 象 同时 wu 二 x, 时 ，D=0。 

这 种 模型 选择 问题 没有 简单 的 解决 方案 。 图 6-3 在 图 6-1 所 示 数 据 上 ， 当 增加 时 的 logD 
为 了 解决 该 问题 ， 将 聚 类 分 析 超 越 于 分 析 的 总 (D 在 式 (6-2) 中 定义 )。 每 个 盒 状 图 为 天 
目标 通常 是 有 帮助 的 。 例 如 ， 在 6. 1 节 ， 我 们 OE 
提 到 基于 客户 聚 类 的 推荐 系统 。 完 成 分 组 是 为 了 获得 数据 的 一 个 精简 表示 ， 并 提供 客户 - 产 
品 推荐 。 因 此 ， 在 某 些 验证 数据 上 ， 选 择 能 够 产生 最 好 推荐 的 聚 类 数目 也 许 是 合理 的 。 类 似 
地 ， 聚 类 是 分 类 中 特征 选择 的 常用 方法 一 一 基于 对 象 的 值 聚 类 特征 ， 而 非 聚 类 对 象 (XT 而 
不 是 站 。 在 该 例 中 ，K 应 该 选择 使 分 类 性 能 最 优 的 值 。 





6. 2.2 kK 均值 的 不 足 之 处 


图 6-4 描述 了 两 个 天 均值 无 法 获取 其 中 看 似 正确 聚 类 结构 的 数据 集 。 在 两 个 例子 中 ， 
真实 聚 类 对 象 不 一 定 符合 我 们 目前 相似 性 〈 距 离 ) 的 定义 。 在 第 一 个 例子 中 ， 图 6-4a， 数 据 
位 于 同心 圆 中 。 在 这 种 情况 下 ， 标 准 的 天 均值 由 于 两 个 圆 的 均值 位 置 相同 ， 显 然 无 法 正常 
使 用 。 在 第 二 个 例子 中 ,图 6-4b， 聚 类 被 拉 伸 〈 注 意 ， 坐 标 轴 的 缩放 ) 成 右边 聚 类 上 方 的 
对 象 与 左边 聚 类 均值 更 近 (在 图 中 均值 为 较 大 的 符号 )。 

在 6.2.3 节 中 ,我 们 将 通过 核 化 〈kernelising) K 均值 算法 聚 类 图 6-4a 中 的 数据 。 对 于 图 6-4b 
中 的 数据 ， 我 们 将 采用 另 一 种 聚 类 方法 : 混合 模型 (mixture models) (从 6. 3 节 开始 介绍 )。 


6.2.3 核 化 K 均值 
我 们 使 用 第 5 章 介 绍 的 核 替换 方法 ， 拓 展 K 均值 算法 。 从 概念 上 讲 ， 与 其 思想 相同 : 
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我 们 将 数据 变换 到 算法 能 够 处 理 的 空间 ， 而 不 增加 算法 复杂 性 。 我 们 利用 图 6-4a 中 的 数据 
介绍 这 种 方法 。 
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图 6-4 天 均值 算法 无 法 获取 准确 聚 类 结构 的 两 种 数据 集 


我 们 知道 ， 核 方法 采用 核 函 数 直接 计算 变换 后 空间 中 的 内 〈 点 ) 积 ， 而 不 是 对 数据 进行 
实际 变换 。 因 此 ， 只 要 以 内 积 的 形式 出 现 数据 对 象 x ，…，xw， 任 何 算 法 都 可 以 用 核 方法 
处 理 ， 使 其 更 加 强大 而 不 额外 增加 任何 计算 成 本 。K 均值 的 关键 步骤 是 计算 第 ”个 对 象 与 
第 & 个 均值 之 间 的 距离 : 


in = x» — He) xy — Ln) 
其 中 ,均值 jv 按 式 (6-1) 计算 。 将 式 (6-1) 代入 dw. 中， 得到: 
四 和 N _ 工 和 N | 
dg 一 (™ 入 之 ex | (™ Ni 2 x) 


其 中 , N 一 这 /zu 为 分 配 到 聚 类 A 中 的 所 有 对 象 数目 。 
展开 该 式 得 出 仅 以 数据 〈x,) 的 内 积 项 表示 的 形式 : 


2 N 1 N 

ES 3 FE 工 

dn = XaXn 一 六 > eg, 十 > Si 
k m=1 1 


Na 
将 所 有 内 积 蔡 换 为 核 函 数 ， 得 到 核 化 距离 : 





m=1 r= 


1 | N | NAN | 
1 dr 7 K(x,,x,) 0 > zkK(r, JK + 二 > > Kr, , 4 (C673) 
六 ， 大 ， 


2 
WN 一 m=1 r=l 1 
该 距离 是 完全 关于 数据 和 当前 分 配 的 函数 ， 没 有 出 现 聚 类 均值 。 事 实 上 ， 在 变换 后 的 空 


间 中 计算 聚 类 均值 一 般 不 太 可 能 。 聚 类 K 均值 的 原始 表达 为 : 





其 核 化 后 的 版 本 为 : 


在 该 式 中 ， 数 据 对 象 以 其 自身 形式 出 现 ， 而 不 是 内 积 形式 。 在 第 5 章 中 对 于 大 多 数 核 函 
数 ， 我 们 讨论 了 无 法 计算 变换 (x 一 $(x,)) 的 情况 :我们 只 计算 变换 后 空间 中 的 内 积 
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($Cx,)' $8(x))。 如 果 不 能 计算 该 变换 ， 我们 将 无 法 计算 jv。 

式 (6-3) 给 出 核 化 均值 步骤 : 

1) 对 每 个 n 随机 初始 化 zw。 

2) 利用 式 (6-3) 计算 每 个 对 象 的 da ，…，dxk。 

3) 将 每 个 对 象 分 配 到 dv 最 近 的 聚 类 中 。 

4) 如 果 分 配 有 变化 ， 则 返回 到 2); 否则 ， 停止。 

在 标准 的 K 均值 中 ， 我 们 用 随机 设置 均值 py; ，…，jx 的 方法 初始 化 算法 。 在 核 K 均值 
中 ， 由 于 不 能 获得 均值 ， 所 以 通过 对 象 - 聚 类 的 分 配 初 始 化 算法 。 我 们 知道 K 均值 算法 对 初始 
条 件 敏感 ， 我 们 可 以 完全 随机 地 初始 化 一 一 对 每 个 n 设置 z 为 1， 所 有 其 他 (z,,，L 隆 kk) 为 0， 
但 更 加 小 心 会 更 好 。 不 同 的 方法 是 ， 运 行 标准 KK 均值 并 使 用 收敛 时 的 z 值 。 其 优点 是 能 够 使 
得 在 同一 聚 类 中 的 对 象 与 其 他 对 象 具有 合理 的 距离 (这 是 随机 设置 无 法 保证 的 )。 第 二 种 方法 
是 ,将 N 一 K 十 1 对 象 分 配 到 聚 类 1 中 ,将 剩 下 的 KK 一 1 个 对 象 分 别 分 配 到 其 余 聚 类 中 。 每 次 
迭代 的 性 能 依赖 于 被 聚 类 数据 的 具体 特点 。 

6-5 给 出 了 用 核 K 均值 处 理 图 6-4a 中 数据 的 结构 (MATLAB 脚本 : kernelkmeans. m)。 
既然 这 样 ， 我 们 将 除 一 个 对 象 之 外 的 所 有 对 象 分 配 到 “ 圆 形 ” 聚 类 中 ， 余 下 的 对 象 分 配 到 “ 方 
形 ” 聚 类 中 。 我 们 采用 ;一 1 的 高 斯 核 ( 式 (5-19))。 图 6-5a 显示 了 初始 化 后 一 次 迭代 的 分 配 情 
况 。 在 算法 经 过 5、10 和 30 次 迭代 “(分别 为 图 6-5b、c 和 d) 后 ， 较 小 的 聚 类 占据 了 内 部 的 圆 。 
收敛 后 ， 可 以 看 到 算法 得 到 了 数据 中 有 意义 的 结构 。 


ES 



























a) 1 次 迭代 后 的 核 K 均 值 


i 
是 











c) 10 次 迭代 后 d) 收敛 时 (30 次 迭代 ) 
图 6-5 核 化 均值 在 图 6-4a 所 示 数 据 上 的 执行 结果 
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在 聚 类 时 ， 核 K 均值 方法 不 仅 没 有 改变 最 初 的 相似 性 思想 ， 而 且 还 为 分 析 其 他 数据 类 
型 提供 了 方法 。 我 们 能 够 处 理 任 何 存在 核 函 数 的 数据 类 型 ， 而 且 几 乎 没有 数据 类 型 不 存在 核 
函数 。 明 显 的 例子 是 用 于 文本 的 核 〈 每 个 对 象 是 一 个 文档 ) 以 及 图 或 网 络 的 核 ， 后 者 在 计算 
生物 学 中 广泛 使 用 。 


6. 2.4 小 结 
在 前 面 的 各 节 中 ， 我 们 介绍 了 天 均值 算法 以 及 如 何 将 其 进行 核 化 。K 均值 算法 的 一 个 
突出 优点 是 它 容易 使 用 ， 并 且 没 有 很 大 的 计算 挑战 。 然 而 ， 其 简单 性 也 是 一 个 缺点 : 假设 聚 


类 可 以 表示 为 单个 点 (均值 ) 往往 会 过 于 粗糙 。 另 外 ， 如 果 我 们 的 目标 仅仅 是 聚 类 (我 们 曾 
经 提 到 过 如 何 选择 聚 类 数目 ， 如 在 分 类 任务 中 得 到 最 好 的 性 能 等 )， 那 么 没有 指导 方法 用 来 
决定 的 聚 类 数目 。 为 了 解决 这 些 缺 点 ， 我 们 现在 介绍 利用 统计 混合 模型 进行 聚 类 的 方法 。 这 
些 模型 与 K 均值 有 一 些 相似 ， 但 提供 了 更 丰富 的 数据 表达 形式 。 


6.3 混合 模型 


在 图 6-4b 中 ， 我 们 展示 了 一 个 原始 K 均值 聚 类 失败 的 数据 集 。 本 应 该 属于 一 个 类 的 某 
些 对 象 却 更 靠近 另 一 个 类 的 中 心 ， 两 个 类 以 这 样 的 方式 被 拉 大 了 。 我 们 这 里 的 K 均值 算法 
的 问题 是 关于 类 的 定义 过 于 粗糙 。 这 些 延 伸 类 的 特性 不 能 由 一 个 单 点 和 平方 距离 来 描述 。 我 
们 需要 能 够 纳入 形状 的 概念 。 统 计 混合 学 将 每 个 类 表示 为 一 个 概率 密度 。 这 种 归纳 引出 了 一 
个 强大 的 方法 ， 我 们 可 以 在 几乎 任何 类 型 的 数据 中 以 各 种 图 形 来 建 模 聚 类 。 


6.3.1 生成 过 程 


在 2.1.1 节 中 ， 我 们 通过 创建 一 个 能 够 生成 数据 的 过 程 对 第 1 章 介绍 的 线性 模型 进行 了 
概率 化 处 理 。 在 这 种 情况 下 ， 我 们 将 决定 性 函数 w'x, 与 均值 为 0、 方差 为 严 的 高 斯 随机 变 
量 结合 起 来 。 以 这 种 方式 产生 的 数据 ， 非 常 高 质量 地 类 似 于 真实 数据 。 注 意 ， 我 们 从 未 试图 





声称 这 就 是 产生 数据 的 过 程 ， 它 仅仅 是 一 个 抽象 概念 ， 使 我 们 能 够 建立 一 个 更 好 的 模型 。 我 
们 将 使 用 很 多 相同 的 动机 ， 从 K 均值 转化 为 统计 混合 模型 。 

图 6-6 再 现 了 我 们 合成 的 聚 类 数据 集 。 我 6 ee 
们 如 何 能 产生 这 样 的 数据 ? 图 6-6 中 的 数据 并 WH 
不 像 我 们 所 遇 到 的 任何 密度 函数 样本 。 图 中 出 “| 人 


现 了 3 个 不 相交 的 区 域 ， 每 个 区 域 中 的 数据 都 。 2[ 
聚集 在 一 起 。 我 们 看 到 的 密度 郴 数 没 有 一 个 能 
够 产生 这 样 复 杂 结 构 的 数据 。 然 而 ， 这 3 个 区 
域 的 每 一 个 看 起 来 足够 简单 ， 能 够 产生 自身 的 -2 


2 
© 














分 布 。 事 实 上 ， 它 们 看 起 来 都 有 点 像 2 维 高 斯 

样本 。 | 和 
假设 数据 是 由 3 个 独立 的 高 斯 生成 , 通过 L_ 

两 个 步骤 来 抽样 第 个 数据 对 象 x,: 人 
1) 从 3 个 高 斯 中 选择 一 个 。 图 6-6 合成 的 聚 类 数据 集 的 例子 


2) 从 该 高 斯 中 抽取 样本 x, 。 
这 些 步骤 都 是 简单 明确 的 。 第 1 步 从 一 个 离散 集中 选择 一 个 值 ， 像 滚动 贷 子 。 要 做 到 这 
一 点 ,我们 只 需要 定义 每 个 输出 x 的 概率 ,满足 >》)xs 二 1 。 选 择 了 从 哪个 高 斯 进行 抽样 ， 
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第 二 步 就 很 简单 了 。 

为 了 阐明 这 个 过 程 ， 我 们 将 从 一 个 设置 和 一 2 的 高 斯 分 布 中 取样 数据 。 在 K 均值 中 ， 我们 
使 用 内 作为 指示 变量 。 如 果 我 们 选择 第 & 个 组 分 〈component) 作为 第 2 个 对 象 的 来 源 ， 那 么 
我 们 设置 z 二 1， 并 且 对 其 他 的 j 关 &， 设置 z; 一 0。 和 有 丸 表示 第 & 个 高 斯 分 布 的 参数 。 

如 果 x, 是 从 第 & 个 组 分 中 产生 的 ， 那么 它 的 密度 函数 为 一 个 均值 和 协 方差 分 别 为 必 和 
区 的 高 斯 分 布 : 

pxn | zu = Lp DB) = Ns BD) 
在 我 们 的 例子 中 ， 对 这 2 个 组 分 我 们 采用 如 下 的 均值 和 协 方差 ， 


1 2 0 
1 = [3,3] 了 ， =»=| | js = E13 —81, 三 =| | (6-4) 


0 

0 2 0 1 

最 后 ， 我 们 需要 定义 mn。 如 果 第 一 个 组 分 比 第 二 个 组 分 更 可 能 ， 那 么 我 们 使 用 x 二 0.7、zxw 二 
0.3。 图 6-7 展示 了 生成 的 前 50 个 数据 和 这 两 个 高 斯 分 布 的 密度 函数 (MATLAB 脚本 : mix- 
gen. m) 。 我 们 选择 k= 二 2， 图 6-7a 描述 了 选 出 的 第 1 个 点 ， 它 是 从 第 2 个 组 分 中 选 出 来 的 〈 比 
较 低 的 那个 组 分 ) 。 图 6-7b 描述 了 选 出 的 前 5 个 点 ， 注 意 这 5 个 点 中 除了 第 1 个 点 外 都 来 自 于 
第 1 个 组 分 。 这 不 奇怪 ， 因 为 第 1 个 组 分 比 第 2 个 组 分 更 可 能 zn 之 xs。 图 6-7c 和 d 分 别 描述 了 
前 10 个 点 和 前 50 个 点 。 如 果 我 们 比较 图 6-7d 和 图 6-6 ， 我 们 就 会 发 现 尽管 数据 集 不 一 样 ， 但 
是 它们 有 一 些 共同 的 特点 。 特 别 地 ， 图 6-6 看 起 来 就 像 与 图 6-7 用 相同 的 方式 生成 的 。 





-2 0 2 4 
a) 第 1 个 对 象 











Xi Xl 


c) 前 10 个 对 象 d) 前 50 个 对 象 
图 6-7 从 两 个 高 斯 分 布 中 生成 数据 
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以 上 我 们 介绍 的 生成 程序 是 针对 混合 模型 (假定 数据 从 一 些 不 同 密 度 函 数 构 成 的 混合 函 
数 中 轴 取 ) 的 生成 程序 。 因 为 拟 合 一 些 简单 的 分 布 往往 比拟 合 一 个 复杂 的 分 布 更 简单 ， 所 以 
混合 模型 在 数据 模型 中 有 着 广泛 的 应 用 。 在 聚 类 分 析 中 ， 我 们 可 以 把 每 一 个 单独 的 组 分 作为 

个 类 一 一 zw 二 1 的 所 有 个 体 都 在 第 & 个 类 中 。 我 们 的 学 习 任 务 是 从 已 知 的 数据 中 ， 推 断 出 
每 个 组 分 的 参数 ( 必 , 玛 ) 和 各 个 组 分 中 个 体 的 分 配 。 在 天 均值 中 ， 这 是 一 个 循环 问题 : 如 
果 我 们 知道 个 体 的 分 配 ， 那 么 计算 参数 非常 容易 ; 同样 ， 如 果 知 道 分 布 的 参数 ， 那 么 个 体 的 
分 配 也 非常 容易 。 如 果 两 个 都 不 知道 ， 那 么 我 们 很 难 知道 从 何 开 始 。 期 望 -最 大 (EM) 算 
法 给 我 们 一 个 结果 ，EM 算法 是 一 个 在 很 多 模型 中 广泛 应 用 的 迭代 最 大 似 然 技术 ,并且 它 与 
我 们 之 前 介绍 的 K 均值 算法 是 并 行 的 算法 。 





6. 3.2 混合 模型 似 然 函 数 


为 了 进行 EM 算法 ， 我 们 需要 首先 给 出 似 然 函 数 的 表达 式 。 为 了 尽 可 能 地 通用 化 ， 我 们 
用 p(x, |zwx 二 1]，A:) 表示 第 大 个 类 的 密度 函数 〈 不 一 定 为 高 斯 分 布 )， 其 中 Ai 为 其 中 的 参 
数 。 另 外 ， 我 们 用 A 二 {A, ，…，A) 来 表示 各 个 组 分 的 参数 集合 ， 并 把 所 有 的 x 整合 为 一 
个 向 量 zx 二 {zm ，…，mx)。 

我 们 需要 在 整个 模型 下 数据 x, 的 似 然 函 数 p (x, 1A，z)。 为 了 得 到 这 个 表达 式 ， 我 们 
从 zw 三 1 的 特定 数据 对 象 的 似 然 函 数 开 始 : 

pr, [ss = TAY = Px | 有 人 
为 了 得 到 p(x |A，z)， 我 们 需要 删除 xz* 。 为 了 实现 它 ， 我 们 首先 在 等 式 两 边 都 乘 以 pz 一 1)， 
也 就 是 我 们 之 前 定义 的 及。 那么 有 
其 (二 | 部 = LAP = 下 全 RR A p(B = 
p(X sen = AA) = p(x |Ar Ym 

等 式 两 边 对 所 有 的 个 组 分 进行 求 和 ， 得 到 似 然 函数 


K K 
Dplxszm = 1|A,n)= Dplx, |A ne 
k=1 k=1 


px Ar 一 mplx, As) 
根据 基本 的 样本 独立 性 假设 ,我 们 可 以 得 到 N 个 数据 对 象 的 似 然 函 数 : 


N kK 
pCX|A,r) = [| > rp lx, |A1) (6-5) 
娘 1 丰 寺 1 


6. 3.3 EM 算法 


我 们 现在 需要 说 明 使 用 EM 算法 求 式 (6-5) 中 似 然 函数 的 最 大 值 。 通 常 使 用 对 数 似 然 
函数 更 为 简单 ， 因 此 我 们 对 式 〈6-5) 取 自 然 对 数 ， 即 ， 


N K 
L= logp(X|A,n) = >)log np lx, Ip ,ED) (6-6) 
n=1 k=1 


对 数 内 的 求 和 使 我 们 直接 寻找 最 优 的 心 、 有 到、z 关 参数 值 比较 困难 。 而 EM 算法 通过 计算 似 然 
函数 的 一 个 下 界 (X、A 和 的 一 个 函数 且 总 是 小 于 等 于 似 然 函 数 L〉 来 解决 这 个 问题 。 我 
们 不 再 直接 对 工 进行 最 大 化 ， 而 转 为 对 它 的 下 界 最 大 化 。 

为 了 得 到 工 的 下界 ,我 们 可 以 使 用 下 面 期 望 的 对 数 和 对 数 的 期 望 关系 ， 也 就 是 著名 的 
知 森 (Jensen) 不 等 式 : 
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log E,» (f(z)} > Ey, (log f(z)} (6-7) 


也 就 是 说 ，f(z) 期 望 值 的 对 数 总 是 大 于 等 于 log f(z) 的 期 望 值 。 
为 了 能 够 应 用 詹 森 不 等 式 来 求 似 然 聘 数 的 下 界 ， 我们 需要 式 (6-6) 的 右 侧 部 分 看 起 来 
像 期 望 的 对 数 。 因 此 ， 将 对 & 求 和 的 公式 内 的 表达 式 先 乘 后 除 以 一 个 新 的 变量 qx。 


N K 
L 二 Dlog Dmp Cx, | ,5 ) 
Wl k= 


如 果 我 们 约束 gq 是正 的 且 满 足 求 和 约束 条 件 之 /qu 三 1 (也 就 是 说 ，gw 表示 第 n 个 个 体 
在 这 个 个 组 分 中 的 概率 分 布 )， 那么 我 们 可 以 重新 整理 公 \ 式 为 基于 gw 的 期 望 ， 即 ， 
了 一 Diog Da map (Xs, J 


Ss SlogE Np (xX, i 5B;) 
n=1 | Gnk | 


利用 詹 森 不 等 式 ， 我 们 可 以 得 到 工 的 下 界 ， 


六 N 
Ee >， log E,. 2 类 ,E,) Ss DE,. log he 地 9 
win 7 n=1 





不 等 式 的 右 侧 部 分 就 是 我 们 需要 优化 的 表达 式 的 下 界 ( 记 为 B)。 把 表达 式 展开 ， 我们 
将 更 容易 操作 。 
B= 六 fiom me ee Bese | 


六 = 3) Dalog as lp ) 


N 天 
= en pi | ,BE) 一 2 2 qnlog qn (6-8) 


使 得 这 个 下 界 达到 局 部 最 大 值 的 gx、XN、JK、 如 参数 值 也 会 使 对 数 似 然 函数 工 达到 最 大 。 
就 像 我 们 前 面 提 到 的 ，EM 算法 是 一 个 迭代 算法 。 这 就 需要 我 们 不 断 地 重复 更 新 模型 中 

的 数值 直到 收敛 。 为 了 每 次 更 新 ， 我 们 需要 计算 8B 针对 某 个 参数 的 偏 导数 ， 并 令 其 等 于 0， 

然后 求解 。 下 面 我 们 将 对 各 个 参数 依次 求解 。 

6.3.3.1 更 新 rr 


只 有 6 的 第 一 部 分 包含 m。( 其 他 部 分 对 x 的 偏 导 数 为 0) 。zm 是 一 个 概率 ， 所 以 有 > Jr 一 1 。 


因此 ， 对 x 进行 优化 是 有 条 件 约束 的 。 就 像 在 5. 3. 3. 2 节 的 SVM 中 一 样 ， 可 以 采用 拉 格 朗 
日 算法 将 约束 条 件 整 合 进 目标 函数 (此 时 为 B)。 与 8 相关 的 拉 格 朗 日 项 (和 关联 的 拉 格 朗 日 
乘 子 4+， 见 注解 5. 1) 为 ， 


B= 2 >) qulog x 一 儿 = 1 
对 上 式 求 x 的 偏 导 数 ， 并 使 其 等 于 0， 然 后 整理 ， 得 到 ， 
DB3 2 a 
4 一 0 
i (6-9) 


N 


2 = Mr 
最 后 我 们 需要 计算 和 ， 式 (6-9) 两 边 对 大 求 和 ， 可 得 : 
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K N 
2 = A 
k=1 n=1 

N 

六 ji 了 二 让 


其 中 我 们 用 到 了 D7 gu 一 1 和 2 二 1 的 事实 。 将 4 二 N 代入 式 (6-9)， 可 以 得 到 x 的 表 
达 式 为 : 
A 二 前 于 sa 

我 们 将 在 6. 3. 3. 5 节 讨 论 它 和 其 他 表达 式 的 直觉 意义 。 
6. 3. 3.2 更 新 必 

接 下 来 ， 我 们 考虑 jw:，B6 中 只 有 第 2 部 分 包含 心 。 如 果 我 们 将 p(x, |, 如) 作为 多 变量 
高 斯 分 布 的 密度 函数 〈 式 〈2-28)) ， 并 展开 ， 可 得 : 

N 天 1 1 让 
B= >) Panlog (GOT P( Be) p23 m= pa) +t “ee 


n=1] 大 一 1 


一 Dawlogc onlz.1) 一 二 2 Dt Xn — J) De (x = 
第 一 部 分 不 包含 jw， 因此 可 以 忽略 。 利用 下 面 的 性 质 ( 见 表 1-4)， 
FO 0 SY gw 
Ow 


和 链 式 法 则 ， 我 们 可 以 求 B 对 pi 的 偏 导数 ， 


aB 1 立 ao — p00) Bi! (xi — pr) ,Oxy — pi) 
OU 2 a DCx， 一 以 ) or. 


> Par or 一 号) 
令 其 等 于 0 并 整理 ， 可 以 得 到 内 的 表达 式 ， 


2 (Rs 一 作 ) 一 0 
ynz, 一 Sg 
n=1 n=1 

N N 
= Lx > qun 
n=1 n=1 
N 
gu 


有 一 一 (6-10) 
> qu 


n=1 





6.3.3.3 更 新 了 


第 三 ， 我 们 考虑 z 。 与 以 一样， OU pl% [jr, 忆 ) 。 我 们 将 该 项 展开 
B 一 一 1> Daslog 2n) [B21)— 二 > > ga x — pe)T Be Cx 一 后 ) 十 … 


忽略 第 一 项 中 的 常数 部 分 (2r) ， 我 们 得 到 ， 
2 $3 PalogdlsD) > Pa, — he) Be Cx, — 
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为 了 对 有 求 偏 导数 ， 我 们 需要 以 下 的 性 质 : 





alog |C| 一 《CT 一 
aC (CC ) 
和 
aaC 1 4 TN-1 PTPmTA 一 ! 
ac 一 (CC ) ab (CC ) 
利用 这 两 个 性 质 ， 我 们 可 以 求 B 对 束 的 偏 导数 。 
Te DR 十 Ep (x — W)Cx, — LW:)" De 


注意 , 县 是 一 个 协 方差 矩阵 ， 是 对 称 的 ， 因 此 亚 = 了 天 。 令 该 式 等 于 0 并 整理 ， 得 到 


一 DB + 二 DD Cx, — pC, pu) Di 一 0 


DD guEr 一 二 (2 CO— te) Ks 一 有 7 下 
在 等 式 两 侧 分 别 左 乘 和 右 乘 马 ， 可 以 使 我 们 消 掉 丈 ”: 


N N 
Z. > i= DD Xi (xn — Le) CX — pe) DD 
n=1 n=1 


222 


N N 
Bi Dg = Dgalx, — pe) Cx, — pe)T 
n=1 n=1 


Da x — Cx, — pp) 
=1 


下 一 “ N 
Za 
下 一 ] 


(6-11) 





6. 3.3.4 更 新 qx 
最 后 ， 我 们 更 新 ww ， 它 在 B 的 三 项 中 都 出 现 。 另 外 ， 它 受 条 件 >v 二 1 的 约束 ， 因 此 
类 似 于 更 新 x 。 我 们 使 用 拉 格 朗 日 项 ( 见 注解 5. 1)。 下 界 B 和 拉 格 朗 日 项 为 ， 
B= > Daulog Ak 十 3 Daulog plx; |p4 ,BD)— > Paulog gu 


A( Gm 一 1) 
对 av 求 偏 导数 ， 得 到 ， 
QE. 二 log x t+ log plx, [WsB) — (1 二 log gx)—A 
Og 





注释 6. 1 (微分 的 乘积 法 则 ) : 当 需 要 对 含有 相同 变量 的 两 个 函数 的 乘积 求 该 变量 的 微分 
时 ,我 们 可 以 使 用 乘积 法 则 。 例 如 ， 如 果 

f(a) = g(a)h(a) 
那么 ， 根 据 乘积 法 则 ， 有 








例如 ， 求 alog a 对 a 的 微分 ， 则 有 
axX 二 十 1X log(a) = 1+ log(a) 
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其 中 ， 对 项 wwlog qw 求 偏 导 我 们 用 到 了 乘积 法 则 〈 见 注解 6. 1)。 令 其 等 于 0， 整理 并 求 
指数 ， 得 到 了 gq, 的 表达 式 : 
1 十 log gn + A= log st log plx, Ihr,D) 
exp(log gn + (A 二 1))= exp(log +t log plx, | ,D5)) 
223 qxexp(A 二 1)= xp Cx, jp 到) (6-12) 
与 更 新 m 一 样 ， 为 了 得 到 常数 项 〈 此 时 为 expC 十 1))， 我 们 对 等 式 两 边 的 & 项 求 和 ， 得 到 : 


K K 
exp(A 十 1) > ,qu 一 Dmp lr lh,B) 
k=1 k=1 


expQ+1)= Dmpl, Ip,D) (6-13) 
将 式 (6-13) 代入 式 (6-12)， 得 到 gw 的 表达 式 : 
ee Mp xn |pr sD) (6-14) 


> ) nplx, ps ,5;) 
6. 3.3.5 一 些 直觉 








这 4 个 更 新 的 等 式 分 别 为 
二 Ly (6-15) 
n=1 
N 
Dr 
下 二 所 (6-16) 
2 
n=1 
Da — be) Cx CO— We) 
训 汪 (6-17) 
> qu 
n=1 
Rs Map (x | ,5) (6-18) 





Dp lx Ig; ,5;) 


前 3 个 表达 式 非 常 依赖 于 gx : x 是 针对 某 个 & 的 gw 的 均值 ，jw 是 以 qw 为 权 值 的 数据 对 象 
的 均值 , 到 是 加 权 的 协 方差 。 那么 ga 代表 什么 呢 ? 式 (6-18) 可 以 给 我 们 一 些 直 觉 。 竺 一 
看 ,我 们 发 现 它 像 一 个 具有 先 验 概率 x 的 贝 叶 斯 规则 、 似 然 函 数 pCx, li, 台 ) 和 上 个 组 分 
的 平均 值得 到 的 标准 化 常数 。 实 际 上 ， 它 可 以 理解 为 计算 一 个 个 体 n 属于 类 的 后 验 概率 问 
题 (非常 像 式 (5-2) 给 出 的 依据 贝 叶 斯 规则 的 贝 叶 斯 分 类 问题 )。 特 别 地 ， 
plz 一 1 |x, ,x,A) = Pm 二 lx) px, |pr sD) 
| PpCes = 11moptx | ,5 ) 


模型 的 参数 x， jw ，…， 肥 ， 马 ，…， 5,， gw 的 取 值 告诉 我 们 第 个 个 体 属于 第 & 类 的 后 验 
概率 。 鉴 于 此 , 式 (6-15)、 式 (6-16)、 式 (6-17) 就 非常 有 意义 了 。 式 (6-15) 是 所 有 属 
于 第 & 类 的 后 验 概率 的 和 ， 换 句 话 说， 个 体 属 于 第 & 类 的 期 望 比例 。 试 想 当 后 验 概率 都 是 1 
或 者 0 的 这 种 特殊 情形 。 此 时 ，z 正好 为 属于 第 & 类 的 个 体 的 比例 ，pu 各 正好 为 数据 根 

224] ” 据 其 属于 第 & 类 的 后 验 概率 为 权 值 的 加 权 均 值 和 方差 一 一 属于 第 & 类 的 后 验 概率 比较 大 的 数 
据 对 第 & 类 的 均值 和 方差 有 更 大 的 影响 。 





= gm (6-19) 
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注意 前 面 的 讨论 ， 我 们 可 以 把 4 个 更 新 分 为 2 个 集合 。 第 一 个 集合 包含 根据 固定 的 分 配 
概率 gi 来 估计 的 模型 参数 x 、jw 和 加 ; 的 更 新 。 第 二 步 ， 根 据 模 型 参数 的 新 值 来 更 新 分 配 概 
率 gw 。 这 个 步骤 与 之 前 介绍 的 K 均值 算法 类 似 。g, 的 更 新 类 似 于 均值 中 xz 的 更 新 ，j、 
瑟 , 、Xt 的 更 新 类 似 于 KK 均值 中 心 的 更 新 。 关 键 的 不 同 在 于 我 们 是 计算 类 别 的 后 验 概率 而 不 
是 硬 分 配 ， 并 考虑 了 各 组 分 的 协 方差 (尽管 这 是 一 个 可 选择 的 设计 一 一 我 们 可 以 简单 地 假设 
天 二 1) 。 在 式 (6-16) 中 gi 的 替换 就 是 式 (6-1) 均值 的 更 新 。 

这 4 个 等 式 的 更 新 给 我 们 展示 了 EM 算法 的 一 个 例子 。 前 3 个 参数 x 、pju、 吾 : 的 更 新 ， 
组 成 M 步 ， 即 在 ww 条 件 下 最 大 化 下 界 的 步 又， 我们 称 为 最 大 (M) 步 。g 的 更 新 称 为 期 望 
(E) 步 ， 因 为 它 实 际 上 计算 了 未 知 zi 分 配 的 期 望 值 ， 尽 管 我 们 没有 通过 这 个 方式 求 出 它 。 
我 们 鼓励 读者 探索 文献 中 EM 算法 的 其 他 应 用 来 获得 EM 算法 的 不 同 的 推导 。 


6.3.4 例子 


图 6-8 再 现 了 我 们 在 本 章 中 所 使 用 的 合成 数据 集 ， 并 且 我 们 将 使 用 它 来 阐述 6. 3. 3 节 中 的 
EM 算法 的 操作 (MATLA 脚本 : gmix.m)。 与 6 i = 
K 均值 十 分 相似 的 是 ， 我 们 需要 指定 一 个 期 户 
的 组 分 数目 ， 本 例 中 我 们 采用 KK=3。 与 K 均 “ . 
值 不 同 的 是 ， 我 们 可 以 使 用 一 个 很 有 用 的 测度 站 和 
从 数据 中 推断 类 的 个 数 ， 这 个 方法 将 在 下 面 进 A 
行 阐述 。 i 

在 对 式 (6-15) 到 式 (6-18) 进行 更 新 | 
之 前 ,我 们 需要 对 某 些 参数 进行 初始 化 。 我 
们 随机 选择 3 个 组 分 的 均值 和 协 方差 来 进行 
初始 化 。 图 6-9a 展示 了 这 3 个 得 到 的 高 斯 分 。 -6 一 一 一 上 一 一 上 一 
布 的 密度 函数 。 而 且 ,， 为 了 能 够 计算 机 
式 (6-18) 中 的 gx， 我 们 需要 初始 化 rs， 我 图 6-8 ”本 章 中 遇 到 的 合成 聚 类 数据 
们 在 这 3 个 分 量 上 假设 一 个 均匀 的 先 验 分 布 来 得 到 x 一 1/K。 现 在 我 们 有 了 计算 式 (6- 
18) 中 gn (期 望 步 ) 所 需要 的 初始 值 ， 然 后 我 们 要 对 式 (6-15)、 式 (6-16)、 式 (6- 
17) 中 的 zt、j、B: 进行 依次 更 新 (“M” 步 )。 图 6-9b 展示 了 最 终结 果 的 高 斯 分 布 。 
注意 ， 只 经 过 一 次 迭代 ， 数 据 中 的 高 斯 分 布 已 经 展现 出 聚 类 的 结构 。 经 过 第 一 大 步 后 ， 
后 面 的 变化 会 略微 变 慢 。 通 过 图 6-9c， 我 们 发 现 经 过 5 步 EM 迭代 ， 上 面 右 侧 的 组 分 已 
经 逐渐 变 得 独立 〈 完 全 与 其 他 两 个 分 离 )， 同 时 另 两 个 类 也 逐步 分 离 。 再 经 过 两 次 先 
代 ， 从 图 6-9d 中 可 以 看 出 这 两 个 也 已 经 分 离 ， 从 中 我 们 可 以 看 出 ， 只 需要 经 过 少量 的 
迭代 我 们 就 可 以 使 算法 收敛 一 一 gw 和 模型 参数 的 更 新 没有 变化 。 图 6-9e 展示 了 收敛 的 
结果 ， 此 时 已 经 可 以 很 清晰 地 看 出 各 个 独立 的 类 结构 。 在 图 6-9f 中 ,我 们 可 以 看 到 下 
界 B 和 对 数 似 然 函 数 工 的 进化 过 程 。 两 个 都 应 该 是 递增 的 ，。 

一 般 情况 下 ,我 们 不 关心 高 斯 分 布 本 身 ， 而 是 更 关心 对 象 在 组 分 间 的 分 配 一 一 聚 类 。 这 
些 信息 可 以 由 gw 提供 一 一 对 象 属于 某 个 组 分 的 后 验 概率 。 如 果 我 们 想 把 每 个 对 象 只 分 配 到 
一 个 组 分 ， 那么 我 们 可 以 把 每 个 对 象 分 配 到 后 验 概率 最 高 的 组 分 。 有 必要 指出 ， 类 似 于 这 样 
的 硬 分 配 有 可 能 并 不 是 最 明知 的。 考虑 一 个 对 象 nx， 它 在 收敛 时 有 如 下 的 qn 值 : 
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qn 一 0.53，dz 二 0.45,， gq 二 0. 02 





a) 随机 初始 化 的 3 个 高 斯 混合 组 分 b) EM 算法 1 次 迭代 后 3 个 组 分 


-2 





c) EM 算法 5 次 迭代 后 3 个 组 分 d) EM 算法 7 次 迭代 后 3 个 组 分 


2 4 6 8 10 12 
迭代 


f) 边界 8 的 变化 ( 实 线 , 式 (6-8)) 
e) EM 算法 收敛 后 的 3 个 组 分 和 对 数 似 然 C (虚线 ， 式 (6-5)) 


图 6-9 高 斯 混合 模型 的 运算 实例 
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如 果 我 们 必须 将 它 分配 到 一 个 特定 的 组 分 ， 那么 组 分 1 是 最 适合 的 ， 然 而 如 果 我 们 这 么 做 ， 
我 们 就 丢失 了 对 象 n 与 组 分 2 关系 的 有 用 信息 。 

从 这 个 观点 出 发 ， 你 可 能 想 知 道 为 什么 我 们 要 通过 这 样 相当 复杂 的 方式 来 做 这 件 事 ? K 
均值 似乎 在 用 一 个 更 简单 的 方式 来 实现 一 一 K 均值 和 混合 模型 的 聚 类 结果 是 几乎 相同 的 ， 
并 且 K 均值 可 以 进行 核 化 。 在 接 下 来 的 两 节 中 ， 我 们 将 看 到 混合 模型 相对 K 均值 聚 类 已 有 
一 些 非 常 重要 的 优势 ， 主 要 是 因为 它们 的 统计 学 性 质 。 

在 我 们 进行 下 一 步 之 前 ， 我 们 重新 审视 一 个 数据 ， 来 展示 从 K 均值 (图 6-10a) 到 混合 
模型 的 提高 。 选 取 & 一 2， 并 用 本 节 的 方法 进行 公式 的 更 新 ,我 们 可 以 将 混合 模型 应 用 到 这 
个 数据 ， 图 6-10b 显示 了 混合 模型 的 结果 。 明 显 地 ， 混 合 模型 可 以 很 好 地 提取 到 有 意义 的 聚 
类 结果 信息 。 
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a) K 均 值 失 败 的 合成 聚 类 数据 b) 采用 K=2 高 斯 组 分 的 收敛 混合 模型 
图 6-10 K 均值 失败 但 混合 模型 能 够 解决 的 例子 


6. 3.5 EM 寻找 局 部 最 优 


与 K 均值 一 样 ，EM 算法 得 到 的 聚 类 结果 依赖 于 特定 的 初始 值 。 它 只 能 保证 似 然 函 数 达 到 
局 部 最 大 ， 而 不 一 定 是 全 局 最 大 。 实 际 上 ， 即 使 我 们 采取 同一 个 似 然 函数 ， 如 果 重 新 定义 组 分 
标签 ， 我 们 经 常 得 到 多 个 全 局 最 大 值 。 关 于 K 均值 ， 我 们 不 能 通过 解析 的 方法 解决 此 问题 ， 
只 能 凭借 从 多 个 点 出 发 ， 多 次 运行 程序 来 解决 。 我 们 可 以 通过 似 然 函数 ( 式 〈6-5)) 来 评价 哪 
个 收敛 结果 更 好 (就 像 我 们 在 天 均值 中 采用 式 (6-2) 一 样 )。 


6. 3.6 组 分 数目 的 选择 


与 均值 一 样 ， 我 们 必须 通过 选择 组 分 的 数目 来 指定 类 的 个 数 。 我 们 发 现在 K 均值 
中 ， 这 个 选择 是 非 平凡 的 我 们 能 处 理 的 唯一 量 是 对 象 与 它们 聚 类 中 心 的 总 距离 ， 而 且 这 
个 数值 是 随 着 组 分 数目 的 增长 而 减 小 的 。 相 同 的 问题 在 混合 模型 中 通过 使 用 对 数 似 然 函数 L 
(和 B 的 下 界 ) 来 消除 。 图 6-11a 表明 混合 模型 中 对 数 似 然 函 数 工 随 着 组 分 的 增长 而 增长 。 为 
了 理解 为 什么 会 出 现 这 种 情况 ， 考 虑 图 6-11b 中 使 用 KK 二 10。3 个 原始 组 分 (图 6-9e) 中 的 
每 一 个 现在 被 很 多 更 小 的 组 分 代替 。 想 象 3 维 空间 中 这 些 高 斯 分 布 的 点 〈 就 像 我 们 在 图 2-8 
中 做 的 一 样 ) 。 因 为 它们 的 体积 一 定 等 于 1 (因为 它们 是 密度 孔 数 )， 所 以 如 果 它 们 占据 的 区 
域 越 小 〈 图 6-11b) 中 的 椭圆 越 小 )， 那 么 它们 肯定 越 大 。 数 据 集 的 似 然 函 数 ， 也 就 是 每 个 
数据 点 高 度 的 一 个 乘积 (或 者 说 对 数 似 然 函 数 是 高 度 对 数 的 和 )〉 就 会 更 大 。 如 果 我 们 增加 更 
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-五 均值 方法 的 重要 优点 ， 因 为 目前 我 们 很 难 在 -46 
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多 的 组 分 ， 我们 就 需要 考虑 的 区 域 就 会 更 小 ， 因 此 似 然 函 数 就 会 进一步 地 变 大 。 





-300 和 
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-550 
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Kk Xl 
a) 模型 似 然 随 组 分 数目 增长 而 增长 b) K=10 模 型 收敛 的 例子 


图 6-11 对 数 似 然 函 数 工 随 着 组 分 K 的 增 大 而 增 大 


幸运 的 是 ,我 们 可 以 通过 一 个 验证 集 计 算 似 然 函 数 ( 例 如， 交叉 验证 ) 来 克服 这 个 问 
题 。 图 6-12 展示 了 一 个 10 折 交 叉 验 证 的 结果 -36 
(MAT LAB 脚本 : gmixcv.m)。 线 和 条 表示 
验证 数据 的 似 然 函 数 的 均值 和 标准 差 。 结 果 并 
不 是 结论 性 的 ， 比 如 强烈 建议 一 个 特定 的 组 分 -40 
数目 ， 而 是 给 我 们 一 个 可 能 的 数目 区 域 ， 比 如 
3 一 8。 在 我 们 的 实验 中 ,我们 考虑 得 到 尽 可 能 
高 的 精度 。 得 到 这 样 一 个 类 数目 的 量 是 它 优 于 ， 





K 均值 中 找到 任何 表明 分 类 数目 的 指标 。 

当然 ， 如 果 聚 类 只 是 我 们 分 析 中 一 步 ， 我 
们 就 可 以 使 用 其 他 的 度量 指标 (比如 ， 分 类 准 
确 率 ) 来 选择 类 的 个 数 。 而 且 ， 目前 迅速 发 展 图 6-12 图 6-8 数据 中 的 高 斯 混合 模型 的 10 折 
的 非 参数 方法 可 以 使 我 们 通过 马尔 科 夫 链 蒙特 es 
卡 洛 方法 (类似 于 第 4 章 介绍 的 Metropolis-Hastings 方法 ) 来 对 组 分 的 数目 取样 。 这 些 方 
法 超出 了 本 书 的 范围 ， 但 我 们 建议 有 兴趣 的 读者 阅读 本 章 后 面 给 出 的 其 他 阅读 材料 。 








6. 3.7 混合 组 分 的 其 他 形式 


混合 模型 超越 K 均值 的 第 二 个 优势 在 于 它们 具有 很 大 的 灵活 性 。 具 体 来 讲 ，p (x, | …) 
可 以 取 任 意 概 率 密度 形式 。 在 前 面 的 例子 中 ， 我 们 采用 高 斯 (及 变换 形式 )。 本 节 ， 我 们 将 
用 一 个 二 值 数据 集 说 明 经 常 使 用 到 一 些 其 他 的 组 分 形式 。 但 在 这 之 前 ， 有 必要 花 一 点 时 间 在 
高 斯 上 ， 因 为 它 经 常 以 一 些 稍 加 改进 的 形式 出 现 。 

尤其 是 ， 由 于 没有 足够 的 数据 用 以 可 靠 地 估计 全 部 协 方差 矩阵 ， 通 常 有 必要 为 混合 组 分 
协 方 差 矩 阵 增 加 一 些 限 制 条 件 。 例 如 ， 如 果 我 们 得 到 的 是 10 维 数据 而 不 是 2 维 数据 ， 则 将 
需要 更 多 的 数据 以 能 够 佑 计 每 个 协 方差 矩阵 所 需要 的 55 个 参数 。 为 了 解决 这 个 问题 ， 通 常 
假设 协 方差 矩阵 只 有 对 角 元 素 。 这 与 第 2 章 中 维度 独立 的 假设 是 等 价 的 。 与 EM 算法 唯一 不 
同 的 是 到 的 更 新 ， 它 被 拆 分 为 对 每 个 d 维 方差 o% 的 更 新 ( 见 练习 EX 6-1) 。 一 个 更 加 极端 
的 情况 是 ， 当 协 方差 假定 为 各 向 同性 (isotropic) 〈 每 一 个 对 角 线 元 素 值 相同 的 对 角 线 ) 时， 
也 一 otl1 。 同 样 ， 算法 唯一 的 不 同 在 于 如. 的 更 新 ( 见 练习 EX 6-2) 。 


第 6 章 聚 类 分 析 。 155 


现在 简要 描述 对 于 二 值 数 据 的 混合 模型 。 每 个 数据 对 象 x, 为 一 个 二 值 集合 D。 例 如 ， 
D= 二 10 维 的 数据 对 象 可 能 是 : 


w= [OleOs ls ls ld.0s0sl | 
图 6-13 显示 了 一 组 10 维 数据 集 的 例子 ， 每 行 表示 一 个 数据 对 象 。 假 设 在 特定 的 组 分 中 
维度 之 间 是 独立 的 ，p (x, 1…) 可 以 表示 为 伯 努 力 分 布 的 乘积 ( 见 2. 3. 1 节 ): 


D 
px, [pa 一 [| pi Ed 一 pia)! ™™ 
d=1 


(6-20) 





图 6-13 N 二 100 个 对 象 D=10 维 的 二 值 数据 集 实例 。 每 行 表示 一 个 对 象 


其 中 ， p:=Lpn; pro j 为 第 组 分 指定 维 的 概率 向 量 (0 pu1)。 与 EM 算法 有 两 
点 不 同 。 第 一 ， 当 更 新 gw 时 ， 式 (6-18) 变 为 : 
Gx = Rp) (6-21) 


Dip x, |p;) 
j=1 


其 中 ，p(x, |p:〉 由 式 (6-20) 给 出 。 第 二 ，ps 的 更 新 由 w 和 有 到 所 代替 ( 式 (6-16) 和 式 (6-17))。 
为 了 得 到 这 个 更 新 ， 可 以 从 边界 8 ( 式 (6-8)) 中 提取 数据 依赖 项 。 该 项 则 为 : 


N K 
好 一 其， > qulog plx, | PN) 十 … 
n=1 k=1 
N 天 D 
2 2 gulog IL pir (1 — pa) 十 入 
放生 1】 k=1 d=1 


N K D 
DD) Dg >) (zulog pat (1— zu)log(l — pu)) + 
n=1] k=1 d=1 





| 


只 保留 pw 项 ， 得 出 : 


B= 了 (zualog pu (1 ~—= zy)og(l — pa)) te 


对 如 求 偏 导数 ， 得 到 ， 








aB _ ~ ve ed 

Ap a 2 六 (了 1 ) 

令 该 式 为 0， 并 整理 得 到 pi 的 更 新 。 令 其 为 0 并 求解 〈 见 练习 EX 6-3)， 得 到 : 
2 

Yi 


一 (6-22) 


Bix' = N 


2 qn 
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为 第 & 维 的 加 权 平 均 ， 很 类 似 于 高 斯 混合 中 心 的 更 新 。 新 的 EM 算法 包括 根据 式 (6-21) 
更 新 gu《“E” 步 ) 和 分 别 利用 式 〈6-22)、 式 〈6-15) 更 新 p:、xs 之 间 的 迭代 。 与 高 斯 例子 
一 样 ， 我们 需要 初始 化 x 和 组 分 参数 ,我们 通过 设置 x 二 1/K 和 为 每 个 pw 随机 设置 0 一 1 
之 间 的 值 。 使 用 K==5 并 运行 算法 直至 收敛 ， 得 到 图 6-14 所 示 的 聚 类 ， 其 中 每 个 块 为 一 个 
聚 类 (MATLAB 脚本 : binmix. my) Ueda 如 在 聚 类 1 (上 方 ) 
中 ， 所 有 对 象 在 第 9 维 中 为 1， 第 10、 第 7 和 第 2 维 中 为 0。 

与 这 种 方法 大 致 相同 ， 我 们 可 以 得 出 很 多 其 他 组 7 分 密度 的 EM 算法 ( 见 练 习 EX 6. 6)。 
































图 6-14 使 用 二 值 组 分 的 混合 模型 从 图 6-13 所 示 数 据 中 抽取 的 K==5 个 聚 类 


6.3.8 用 EM 估计 MAP 


如 果 只 有 有 限 数 量 的 数据 ， 那 么 正规 则 化 EM 所 得 到 的 参数 估计 也 许 是 可 行 的 。 直 接 的 
方法 是 将 似 然 与 适合 的 参数 先 验 密度 相 乘 ， 得 到 MAP 估计 (使 后 3 验 训 大 的 大 疾 什 ， 见 4.3 
节 )。 例 如 ， 在 上 面 描述 的 二 值 例子 中 ， 我们 可 能 会 采用 独立 8 先 验 ( 见 2.5.2 节 ) 用 于 每 
个 参数 pw : 

plp1,* ,pr la,B) = 1 II 人 De 
这 在 边界 8 中 增加 了 附加 pws 项。 相关 项 是 : 
B= (a— 1)log pu + (B— 1)log(l— pw) 


N 


上 十 (1 一 Zu)log(l 一 加)) 十 … 








求 偏 导 数 ， 令 其 为 0 并 用 正常 广 了 式 求解 ， 得 到 “〔〈 见 练习 EX 6. 4): 
a 二 1 十 ye 
pu = 一 一 (6-23) 





十 B 一 2 十 Dg 
注意 ，a 二 8 二 1 时 等 价 于 式 (6-22)。 正 则 化 效应 明显 。 如 果 对 所 有 nn 有 zw 二 1 或 x 二 0， 
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则 式 〈6-22) 将 得 到 pw 二 1 和 加 三 0。 如 果 一 个 新 的 数据 对 象 没 有 zw 二 1 (或 0)， 则 属于 这 
个 聚 类 的 似 然 为 0， 而 不 考虑 在 其 他 D 一 1 维 的 值 。 式 (6-23) 通过 对 pw 进行 有 效 的 限制 解决 
该 问题 ， 其 最 小 值 和 最 大 值 分 别 为 : 
a—1 
& 二 B= 2 





和 
a 一 1 十 N 
xc 十 8 一 2 十 和 
利用 EM 可 以 得 到 很 多 先 验 与 似 然 组 合 的 最 大 后 验 解 。 另 外 的 例子 见 练习 EX 6. 5。 


6. 3.9 贝 叶 斯 混合 模型 


利用 EM 获得 与 最 大 似 然 或 最 大 后 验 解 对 应 的 点 估计 ， 不 是 用 混合 模型 进行 聚 类 的 唯一 
方法 。 具 体 来 讲 ， 可 以 使 用 马尔 科 夫 链 蒙 特 卡 洛 (Markov Chain Monte Carlo，MCMC) 方 
法 对 聚 类 分 配 和 相关 组 分 参数 进行 采样 。 这 有 很 多 优点 ， 至 少 事实 上 它 可 以 解决 组 分 数量 确 
定 的 问题 (在 6. 3. 6 节 结 尾 处 提 到 的 ) 。 其 结果 不 是 一 个 单一 的 聚 类 结果 ， 而 是 覆盖 聚 类 结 
果 分 布 上 的 一 些 采样 。 从 纯粹 模型 角度 来 讲 ， 这 是 一 件 好 事 一 一 我 们 明确 地 承认 这 样 一 个 事 
实 ， 即 聚 类 (组 分 ) 数量 及 其 相关 分 配 存 在 不 确定 性 。 在 这 些 不 确定 性 存在 的 情况 下 ， 坚 持 
一 个 单一 的 聚 类 将 伴随 其 他 点 估计 的 所 有 缺陷 。 然 而 ， 它 带 有 解释 性 的 问题 。 对 于 很 多 应 
用 ， 很 难 想 象 如 何 使 用 聚 类 划分 的 分 布 ， 并 且 通 常人 们 选择 具有 最 大 似 然 采 样 的 聚 类 结果 。 
当 所 需要 的 最 终结 果 可 以 表示 为 与 聚 类 分 布 相 关 的 期 望 时 ， 用 MCMC 方法 求 混合 模型 是 有 
帮助 的 。 人 例如， 如果 想 要 计算 两 个 对 象 x, 和 x, 处 于 同一 聚 类 的 概率 时 ， 我 们 可 以 简单 地 计 
数 这 样 的 〈 属 于 同一 类 的 ) 样本 数目 除 以 样本 总 数 。 我 们 无 法 通过 EM 使 用 最 大 似 然 或 
MAP 计算 得 到 这 种 概率 。 


6.4 小 结 


本 章 介 绍 了 聚 类 的 两 种 算法 : K 均值 (包括 核 K 均值 ) 和 混合 模型 。K 均值 的 简单 性 
(和 核 K 均值 的 灵活 性 ) 使 其 成 为 一 种 流行 的 方法 。 各 种 不 同 的 组 分 模型 意味 着 混合 模型 
(以 及 一 些 变 型 ) 正 出 现在 越 来 越 多 的 应 用 中 。 这 些 方 法 也 存在 一 些 不 足 一 一 具体 来 讲 ，K 
均值 算法 和 混合 模型 的 EM 算法 都 只 能 得 到 局 部 最 优 。 换 句 话 讲 ， 它 们 得 到 对 应 目标 函数 的 
极 值 ， 而 不 能 保证 是 全 局 最 优 (全 局 最 优 解 )。 在 这 两 种 方法 中 ， 所 得 到 的 解 都 依赖 于 初始 
值 一 一 jp 和 2; 的 不 同 随机 值 会 得 到 不 同 的 聚 类 结果 。 

同样 需要 记 住 的 是 ， 我 们 不 能 在 仅仅 一 章 中 讲 到 很 多 其 他 的 方法 。 推 荐 读者 进一步 研究 
其 他 的 方法 ， 例 如 ， 层 级 聚 类 〈 广 泛 用 于 计算 生物 学 )、 谱 聚 类 和 功能 聚 类 。 


6.5 练习 

EX 6. 1 修改 EM 以 更 新 第 4 维 第 k 组 分 的 方差 6% ， 当 聚 类 组 分 有 对 角 高 斯 似 然 ， 
plxs |zm = po pp yi cp) 一 I N (pm 0%4) 

EX 6. 2 使 用 各 项 同性 的 高 斯 组 分 重复 练习 EX 6. 1 


D 
plxs |zm = 1,p10) = [TL WN Cp »0i) 
dt 一 1 


EX 6.3 修改 EM 以 更 新 式 (6-22) 中 给 出 的 参数 pw 表示 。 
EX 6.4 修改 MAP EM 以 更 新 式 (6-22) 中 给 出 的 参数 piw 表示。 假定 参数 a 和 8B 为 B 先 验 。 
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EX 6.5 修改 MAP 以 更 新 采用 高 斯 组 分 满足 DD 维 独立 分 布 的 混合 模型 : 





之 大- 一 ] ,pn 3 ALKD ,Ok1 0 和 pD ) 二 二 本 MN Cpuna ,oh ) 
d=1 . 
假设 每 个 ww 具有 均值 xr 和 方差 的 独立 高 斯 先 验 。 


EX 6.6 推导 适用 于 混合 泊 松 分 布 的 EM 算法 。 假 设 观测 N 个 整数 计数 ，z ，…，xz。 似 然 为 ， 


p(x|A) = Tr ee xp 一 入 


n=1 大 一 1 Tn 
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在 前 面 的 章节 中 ， 我 们 介绍 了 两 种 用 于 聚 类 的 无 监督 方法 一 一 将 数据 对 象 分 割 成 有 限 数 
目的 不 相关 组 ， 使 得 同 组 中 的 数据 对 象 具有 某 些 相似 性 。 现 在 ， 我 们 将 注意 力 转移 到 第 二 类 
无 监督 方法 上 ， 该 方法 通常 被 归 类 于 投影 技术 。 

本 章 介绍 如 何 将 这 些 方法 用 于 处 理 高 维 的 数据 集 ， 以 及 如 何 通过 将 数据 集 投影 到 低 维 空 
间 对 数据 进行 可 视 化 或 者 特征 选择 。 这 些 技术 用 于 处 理 更 大 规模 的 隐 变 量 模型 ， 我 们 使 用 可 
视 化 的 例子 对 这 个 技术 领域 进行 介绍 。 





7.1 一 般 问题 


本 章 的 出 发 点 是 一 个 包含 N 个 对 象 y, 的 数据 集 。 每 一 个 对 象 是 一 个 M 维 向 量 。 在 大 多 
数 模型 中 ， 参 数 的 数量 随 着 维度 M 的 增加 而 增加 。 因 此 ， 如 果 M 很 大 ， 那 么 参数 估计 是 一 
个 挑战 性 的 问题 。 同 样 ， 高 维 数据 也 是 很 难 进行 可 视 化 的 。 基 于 这 些 原 因 ， 将 M 维 数据 y， 
转化 为 一 个 DD 维 数据 x, 通常 是 很 有 用 的 。 该 过 程 称 为 投影 。 我 们 将 M 维 数据 投影 到 DD 维 
的 同时 ,希望 在 某 种 程度 上 保留 感 兴趣 的 属性 。 

图 7-1 通过 一 个 更 为 熟悉 的 形式 对 该 问题 进行 说 明 。 图 7-la、b 给 出 了 一 个 3 维 对 象 
( 手 ) 在 2 维 平面 上 的 投影 〈 阴 影 区 域 ) 。 图 7-1c 以 一 个 更 加 数学 化 的 形式 展现 了 投影 思想 ， 
即将 某 些 2 维 数据 (y,〉 投影 到 1 维 空间 。 该 1 维 投影 是 原 有 两 个 维度 之 一 ， 但 是 这 不 是 投 
影 的 必要 条 件 。 为 了 将 图 7-1la 与 图 7-1b 相 比 较 ， 这 个 原始 对 象 y, 与 手相 对 应 ，x, 与 阴影 
区 域 相 对 应 。 


7.1.1 方差 一 一 感 兴趣 结构 的 代表 


对 数据 进行 投影 操作 时 ， 我 们 希望 尽 可 能 保留 数据 中 感 兴 趣 的 结构 。 什 么 是 感 兴趣 的 结 
构 呢 ? 图 7-la、b 都 是 相同 数据 的 投影 ， 但 是 ， 图 7-1a 比 图 7-1b 保留 了 更 多 原始 对 象 〈 手 ) 
的 特点 。 然 而 ， 一般 情况 下 ， 在 投影 操作 前 ， 我 们 并 不 知道 原始 数据 的 结构 特点 ， 因 此 也 就 
不 能 使 用 该 特点 优化 投影 。 

在 图 7-2a 中 ， 我 们 使 用 一 个 高 斯 分 布 生 成 数据 点 云 团 。 数 据 被 投影 到 A 和 B 两 条 线 上 。 
每 条 线 都 是 对 2 维 数据 不 同 的 1 维 表达 形式 。 注 意 ， 与 图 7-lc 不 同 ， 这 两 条 线 不 对 应 于 任 
何 一 个 原始 维度 。 这 两 个 1 维 表达 形式 中 的 每 一 个 点 〈 任 何 一 条 线 上 的 位 置 ) 都 是 一 个 关于 
两 个 原始 维度 的 线性 组 合 。 特 别 地 ，Zz, 二 wy 十 wyyw (其 中 ，y, 二 [ymn，ywj"')， 或 者 ， 
使 用 向 量 表 达 式 表示 为 xz, 二 w'y,， 其 中 二 [vw ，ws ]"。 

数据 在 每 个 1 维 空间 上 的 方差 可 以 通过 下 式 计算 : 


2” 一 ND py 
显然 ， A 上 投影 的 方差 高 于 B 上 投影 的 方差 。 不 考虑 其 他 信息 ， 如 果 数 据 必须 投影 到 1 维 空 


间 ， 我 们 就 选择 A。 换 言 之 ， 如 果 被 迫 舍弃 A 投影 和 也 投影 其 中 的 一 个 ， 抛 奔 B 投影 中 包 
含 的 信息 则 更 加 安全 可 靠 。 
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图 7-1 投影 的 思想 。a) 和 b): 手 (3 维 物体 ) 在 灯光 下 投影 到 一 个 2 维 表 中 (2 维 空间 ) 。c) 2 维 数 
据 y, 投影 到 1 维 数据 空间 x,。 这 里 ,使 用 原始 坐标 轴 之 一 对 齐 该 投影 ， 但 这 不 是 必要 操作 











a) 一 个 狭长 形 的 高 斯 分 布 中 的 数据 b) 两 个 高 斯 分 布 中 的 数据 


图 7-2 一 个 例子 : 两 个 人 造 的 二 维 数据 集 在 不 同 投影 方向 上 的 方差 。 图 中 给 出 了 这 两 个 方向 上 的 1 
维 空间 投影 (标记 为 A 和 B) 以 及 数据 在 每 一 个 投影 上 的 方差 〈c ) 


图 7-2b 中 给 出 一 个 更 加 有 趣 的 例子 一 一 数据 聚 类 结构 的 比较 。A 投影 保持 了 数据 聚 类 
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结构 特征 ， 然 而 B 投影 没有 保持 该 特征 。 聚 类 结构 是 一 个 感 兴 趣 的 属性 ， 因 此 A 投影 比 B 
投影 更 加 让 人 感 兴趣 。A 投影 上 数据 的 方差 比 B 投影 上 数据 的 方差 大 两 倍 多 ， 这 是 聚 类 结 
构 的 原因 一 一 类 内 数据 点 与 聚 类 中 心 之 间距 离 较 大 。 如 果 想 要 表达 数据 的 聚 类 结构 ， 在 使 方 
差 最 大 的 方向 上 对 数据 进行 投影 更 能 保留 这 一 结构 特征 。 

基于 这 个 原因 ， 当 考虑 投影 方向 时 ,方差 是 一 个 很 好 的 最 大 化 度量 标准 。 因 此 ， 在 大 多 
数 流行 的 投影 技术 中 ， 如 主 成 分 分 析 ， 使 用 方差 作为 最 大 化 度量 的 标准 。 


7.2 主 成 分 分 析 


主 成 分 分 析 (Principal Components Analysis，PCA) 可 能 是 目前 应 用 最 为 广泛 的 一 种 
统计 技术 ， 用 于 将 高 维 数 据 投 影 到 低 维 空间 。 在 机 器 学 习 中 ， 该 技术 大 多 应 用 于 数据 可 视 化 
和 特征 选择 。PCA 定义 了 一 组 线性 投影 : 每 个 投影 维度 都 是 原始 数据 维度 的 一 个 线性 组 合 。 
即 ， 如 果 从 M 维 投 影 到 DD 维 ，PCA 定义 DD 个 向 量 w4( 每 个 都 是 N 维 的 )， 其 中 ， 投 影 空间 
中 第 a 个 元 素 xm (其 中 心 王 Lz，…，xzmp] ) 使 用 下 式 计算 : 

Xn 一 Way 
因此 ， 学 习 任 务 是 选择 将 多 少 原始 数据 维度 投影 到 D， 然 后 为 每 一 个 原始 数据 维度 选择 一 个 
投影 向 量 w,。 

PCA 使 用 投影 空间 上 的 方差 作为 选择 wi 的 准则 。 特 别 地 ，w1 是 使 zx 维度 上 的 方差 最 
大 的 投影 向 量 。 同 样 ， 第 二 个 投影 维度 也 是 根据 方差 最 大 化 选择 w;， 但 是 w; 必 须 重 直 于 wi 
(w1ix,s 二 0)。 第 三 个 元 素 w; 必 须 满足 方差 最 大 化 ， 并 且 与 w1 和 ww: 同时 垂直 等 。 通 常 : 

wiw;= 0,Vij¥i 
这 组 限制 条 件 说 明 ， 如 果 令 D=M, 那么 PCA 操作 等 价 于 在 不 损失 任何 信息 的 条 件 下 对 原 
始 数 据 进行 旋转 操作 。 

另外 ，PCA 强加 了 一 组 限制 条 件 ， 每 一 个 w; 必 须 定 长 为 1，w1iw ;二 1。 但 是 ,该 条 件 
并 没有 限制 PCA 技术 本 身 ， 更 重要 的 是 ， 仅 仅 限 制 了 每 一 个 z 的 方向 。 

PCA 技术 的 目的 是 找到 投影 w! ，…，zwp， 有 大 量 的 方法 可 以 应 用 。 本 书 是 通过 找到 一 
个 表达 式 为 zu 的 方差 来 找到 这 组 投影 ， 这 也 是 直接 的 方法 。 读 者 也 可 以 使 用 统计 和 机 器 学 
习 的 其 他 方法 获得 。 

在 开始 之 前 ， 有 必要 先 给 出 假设 条 件 ， 即 每 一 个 原始 数据 维度 上 均值 为 零 : 

了 一 六 和 =0 
该 条 件 可 以 通过 让 每 一 个 数据 元 素 y, 减 去 均值 了 得 到 满足 。 
从 投影 了 =1 维 开 始 。 换 言 之 ， 只 需要 找到 一 个 w 向 量 。 在 这 种 情况 下 ， 投影 结果 是 一 
个 标量 zx,。 对 于 每 一 个 观测 值 ， 该 值 可 以 通过 下 式 得 到 : 
zi = wy, 
方差 oz 通过 下 式 得 到 : 
证 = C7 
基于 假设 7 二 0， 对 表达 式 进 行 简化 ， 
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式 (7-1) 变换 为 : 


代入 z, 的 定义 ， 得 : 


oO=w'Cw C7=2) 
其 中 , C 是 样本 的 协 方差 矩阵 ， 定 义 为 : 
C= SS Dy, — DT 
其 中 ， 假 定 7 二 0。 注意 ， 该 式 意味 着 通过 强制 了 为 零 ， 可 以 对 数据 进行 变换 而 不 损失 任何 
信息 。 即 无 论 是 否 强制 y= 二 0,C 都 相同 。 
学 习 的 目标 是 找到 使 w 最 大 的 o 值 ， 所 以 还 要 最 大 化 w'Cw 。 这 可 以 通过 增加 w 中 元 
素 的 值 ， 进 而 增加 w "Cw 来 实现 ， 这 也 是 强制 w 的 长 度 为 1 的 原因 ，w"w 二 1。 与 第 5 章 
SVM 优化 和 第 6 章 EM 推导 一 样 ， 本 章 使 用 拉 格 朗 日 项 (参见 注解 5. 1) 将 该 限制 条 件 与 
优化 策略 相 结 合 。 特 别 地 ， 找 到 w ， 使 下 式 最 大 化 : 
L=w'Cw—A(w'w— 1) 


对 己 求 偏 导 ， 并 使 偏 导数 为 零 ， 重 写 为 





2L 20w—xw=0 
Ow (7-3) 
Cw = Aw 


243| (其 中 我 们 将 系数 2 结合 到 4 常数 中 ) 。 


注解 7.1 (特征 向 量 与 特征 值 ) : 方 阵 A 的 特征 向 量 /特征 值 方 程 为 : 
Au; 一 Au; 
该 方程 的 解 是 一 组 特征 向 量 wu;/ 特 征 值 4; 对 。 

右 图 给 出 了 该 方程 解 的 直观 解释 。 一 个 M 维 向 量 w 乘 以 
一 个 MXM 矩阵 召 得 到 另 一 个 M 维 向 量 。 因 此 ， 甜 阵 B 可 以 
看 做 是 对 向 量 w 的 旋转 操作 。 不 同和 矩阵 B 对 应 的 旋转 操作 也 不 
同 。 对 于 一 个 给 定 的 矩阵 4， 式 (7-3) 中 的 解 是 对 向 量 w 进行 
A 中 定义 的 旋转 操作 ， 并 得 到 u 长 度 的 变化 ， 该 变化 的 大 小 用 
标量 4 表示。 

一 般 情况 下 ， 如 果 和 矩阵 A 有 M 行 M 列 ， 则 有 M 个 特征 向 量 / 特 征 值 对 成 为 式 (7-4) 
的 解 。M 个 特征 向 量 相互 垂 直 。 本 章 无 法 对 特征 向 量 /特征 值 方程 的 求解 过 程 做 更 细致 
的 讨论 ， 但 是 该 解 是 简单 易 得 的 ， 例 如 ， 使 用 MATLAB 中 的 eigs 函数 。 


式 〈7-3) 的 形式 极为 常见 ， 即 特征 向 量 /特征 值 方程 (参见 注解 7.1)。 比 较 式 (7-3) 
和 式 (7-4)， 可 以 看 出 方差 最 大 化 方向 上 的 投影 w 是 协 方差 矩阵 C 的 一 组 特征 向 量 。 然 而 ， 
现在 有 M 个 ， 怎 样 选择 使 方差 最 大 的 特征 向 量 呢 ? cz 的 表达 式 是 : 
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oO=w!'Cw 

回顾 w 'w 二 1， 因 此 等 式 左边 乘 以 ww : 
oC WWwW=w' Cw 

两 边 同 时 除 以 w ， 剩 余 项 类 似 于 式 (7-3): 

owW=Cw 
该 式 给 出 了 特征 向 量 / 特 征 值 对 (X4，w )， 特 征 值 4 对 应 于 ww 定义 的 投影 空间 中 数据 的 方差 。 
如 果 找 到 协 方差 矩阵 C 中 的 M 个 特征 向 量 / 特 征 值 对 ， 则 其 中 最 大 的 特征 值 对 应 的 特征 向 量 / 
特征 值 对 就 是 方差 最 大 化 方向 上 的 投影 wm, 。 排 在 第 二 位 的 特征 值 对 应 w;， 第 三 位 对 应 ws 等。 

总 之 ， 在 数据 对 象 集合 y; ，…，yn 上 进行 投影 操作 包括 以 下 步骤 ( 插 号 中 的 表达 式 是 

对 应 的 矩阵 操作 ， 这 里 定义 Y=[y，…， ynj ): 


1) 让 每 一 个 元 素 减 去 7， 使 M 维 数据 的 均值 为 0， 其 中 了 一 二 > y 。 


2) 计算 样本 的 协 方差 矩阵 C = 十 > ) yy7 或 者 C 二 入 Y'Y。 
3) 求解 得 到 M 个 特征 向 量 /特征 值 对 。 该 求解 操作 可 以 通过 MATLAB 中 的 eigs 函数 


完成 。 

4) 找到 也 个 最 大 特征 值 对 应 的 特征 向 量 w)，…，wp。 

5) 在 投影 空间 中 ， 为 对 象 n 建立 第 d 维 zx 一 way，( 或 者 X=YW， 其 中 W=[wi,，…，wpj， 
即 按 顺序 排列 DD 个 特征 向 量 建立 MXD 和 矩阵， XX 是 NXD 矩阵， 定义 为 X==[x，…，xwj )。 

为 了 说 明 这 一 点 ， 回 到 图 7-2 的 简单 例子 中 。 在 这 些 数据 点 中 ， 选 择 的 投影 方向 就 是 主 
成 分 。 例 如 ， 在 2 维 空间 中 ， 存 在 一 个 包含 两 个 成 分 的 最 大 值 (2 X2 的 协 方差 矩阵 只 有 两 
个 特征 向 量 。 在 2 维 空间 中 ,不 可 能 有 更 多 的 相互 垂直 的 方向 )。 对 于 这 些 点 ， 前 文 提 到 该 
过 程 只 需 定义 在 其 上 投影 的 直线 的 方向 。 为 了 看 得 更 加 清晰 ， 这 里 将 直线 向 下 移动 一 点 (A 
投影 )， 向 左 移动 一 点 (B 投影 ) 。 

图 7-3 是 一 个 更 复杂 的 例子 (MATLAB 脚本 : pcaexample. m) 。 建 立 一 个 数据 集 ， 其 
中 每 个 数据 对 象 属于 3 个 聚 类 之 一 (参见 图 7-3a) 。 然 后 通过 添加 额外 的 5 个 维度 将 数据 变 
得 更 复杂 一 些 ， 每 个 维度 的 值 从 N(0，1) 依据 下 式 采 样 获 得 : 

ya ~ N(0,1),d = 3 ,7 n= 1 














0 2 6 8 10 -5 0. 5 10 
a) 数据 对 象 y, 的 前 两 维 b) 7 个 特征 值 〈 投 影 维度 上 的 方差 ) c) 投影 到 前 两 个 主要 成 分 的 数据 


图 7-3 只 需 一 个 投影 维度 的 PCA 例子 。 数 据 对 象 y, 具有 7 个 维度 。 前 两 维 保留 了 a 中 所 示 的 聚 类 结构 。 剩 余 维 
度 的 值 从 NM(0，1) 中 随机 选择 


换言之 ， 数 据 的 结构 化 信息 只 在 前 两 个 维度 中 存在 ， 而 额外 的 5 个 维度 是 噪声 数据 。 这 


种 情况 在 现实 中 是 存在 的 ， 即 很 多 数据 对 象 的 不 同属 性 是 可 以 观察 记录 的 ， 但 是 它们 的 先 验 
知识 却 很 难得 到 。 对 数据 进行 均值 中 心 化 后 ， 图 7-3b 中 给 出 了 协 方差 矩阵 C=YY 中 这 7 个 
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维度 的 特征 值 ， 并 根据 大 小 排序 。 前 文 提 到 这 些 特征 值 相 当 于 DD 个 潜在 投影 维度 上 的 方差 。 
可 以 看 出 ， 最 大 的 特征 值 远 远大 于 其 他 特征 值 。 因 此 ， 只 需要 一 个 投影 维度 就 可 以 捕获 7 个 
维度 上 的 大 部 分 方差 信息 。 这 似乎 有 些 不 寻常 ， 因 为 原始 聚 类 结构 在 前 两 个 维度 上 。 但 是 ， 
回 到 图 7-3a 中 ， 可 以 看 出 该 聚 类 结构 实际 上 只 是 1 维 空间 上 的 ， 因 为 聚 类 在 直线 yn 二 yn 
上 。 使 用 一 个 投影 维度 对 其 进行 描述 就 足够 了 。 虽 然 在 前 两 个 投影 维度 上 画 出 这 些 点 看 起 来 
更 加 清晰 〈 见 图 7-3c) ， 但 第 一 个 投影 维度 zu 保存 了 全 部 的 聚 类 结构 信息 。 

该 例 表 明了 PCA 的 一 个 重要 特征 。 特 征 谱 (特征 值 的 重要 性 ， 见 图 7-3b) 显示 了 数据 
中 感 兴趣 特征 的 数量 。 例 如 。 图 7-3b 显示 了 使 用 两 个 维度 并 不 会 比 使 用 一 个 维度 获得 更 多 
的 信息 。 图 7-4 给 出 第 二 个 例子 (MATLAB 脚本 : pcaexample2.m)。 图 7-4a 给 出 一 个 不 
同 的 例子 ， 使 用 前 两 维 保存 聚 类 结构 信息 (其 他 5 维 构 造 与 之 前 例子 相同 )。 在 这 个 例子 中 ， 
一 个 方向 上 有 4 个 聚 类 ， 只 用 一 个 维度 无 法 表示 。 使 用 一 个 单独 的 线性 投影 无 法 分 离 所 有 的 
聚 类 。 因 此 ， 投 影 操作 需要 多 个 特征 值 。 图 7-4b 给 出 特征 值 的 证 明 前 两 个 维度 的 特征 
值 远 远大 于 其 余 5 个 维度 。 从 图 7-4c 中 可 以 看 到 数据 投影 到 前 两 个 成 分 的 结果 ， 很 明显 ， 
缩减 后 的 投影 空间 中 保留 了 该 聚 类 结构 。 
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yn d Xn 
a) 数据 对 象 y, 的 前 两 维 b) 7 个 维度 投影 维度 上 的 方差 ) c) 投影 到 前 两 个 主要 成 分 的 数据 


图 7-4 需要 投影 到 两 个 维度 的 PCA 例子 


有 必要 重申 这 些 例 子 中 的 要 点 。 首 先 ， 前 文 提 到 的 这 些 例子 中 都 增加 了 5 个 “随机 ”的 

维度 。 因 此 ,不同 于 图 7-3a 和 图 7-4a， 该 问题 具有 实际 意义 。 其 次 ， 虽 然 使 用 不 同 符号 

〈 例 如 ， 圆 圈 、 方 块 等 ) 对 数据 对 象 进行 标记 ， 但 该 标记 信息 不 会 用 于 PCA 一 一 无 监督 学 

246|] 习 。 最 后 ， 聚 类 结构 与 所 在 的 前 两 个 维度 的 位 置 无 关 。 如 果 对 Y 的 列 随 意 排序 (例如 ， 对 Y 
的 维度 重新 排序 )， 结 果 应 当 是 一 样 的 。 


7.2.1 选择 D 


前 文 使 用 特征 谱 (和 数据 知识 ) 来 表示 投影 维度 的 数量 。 一 般 情 况 下 ， 对 DD 的 选择 根 
据 应 用 不 同 而 不 同 。 例 如 ， 如 果 在 可 视 化 任务 中 使 用 PCA 来 对 高 维 数据 进行 可 视 化 ， 可 视 
化 的 维度 需要 从 实践 的 角度 加 以 限制 : 最 多 不 超过 3 维 。 

针对 其 他 应 用 ， 特 征 谱 同 样 提供 了 有 用 的 信息 。 但是， 其 具体 解释 很 大 程度 上 依赖 于 主 
观 思想 (这 种 信息 不 能 像 图 7-3b 和 图 7-4b 中 一 样 清晰 可 见 )。 如 果 PCA 是 大 型 学 习 系 统 的 
一 部 分 ， 其 客观 度量 是 很 重要 的 。 例 如 ，PCA 常用 于 分 类 任务 之 前 的 特征 提取 。 假 设 图 7-4 
是 一 个 真实 的 四 类 分 类 问题 ， 该 问题 由 数据 和 矩阵 Y 和 标记 t 组 成 ， 使 用 投影 后 的 数据 X 而 不 
是 原始 数据 Y 进行 分 类 是 合理 的 。 该 问题 中 ，D 值 应 当 使 用 其 他 方法 更 好 地 进行 选择 ， 从 
而 使 分 类 效果 更 好 ， 例 如 ， 交 又 验 证 。 
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7.2.2 PCA 的 局 限 性 


昌 然 PCA 已 经 成 功 应 用 于 很 多 领域 ， 但 是 与 所 有 模型 相同 ，PCA 具有 明显 的 局 限 性 。 
特别 地 ，PCA 对 数据 有 以 下 两 个 假设 : 

1) 数据 必须 是 实 值 。 

2) 数据 没有 缺失 值 。 

在 很 多 问题 中 ， 数 据 满足 这 两 个 假设 条 件 ， 但 是 很 多 却 不 能 满足 。 例 如 ， 数 据 缺 失 值 是 
一 个 科学 数据 中 经 常 出 现 的 问题 ， 因 为 数据 的 质量 是 动态 变化 的 ， 并 且 难 以 通过 实验 设备 加 
以 控制 。 购 买 记录 的 数据 集 ( 某 人 是 否 购买 了 某 些 物品 ) 可 能 是 一 个 二 值 数据 而 非 实 值 或 连 
续 值 。 一 个 明显 不 满足 这 两 个 条 件 的 例子 是 电影 等 级 数据 集 ， 假 定 存在 一 个 矩阵 ， 每 一 行 代 
表 观 看 者 ， 每 一 列 代表 电影 。 第 i 行 第 j 列 是 第 ; 个 观看 者 对 第 7 个 电影 的 评价 等 级 。 一 般 
情况 下 ， 该 值 是 一 个 整数 〈0 一 5 星 级 ， 不 是 实 值 或 连续 值 )， 而 且 让 一 个 观看 者 观看 每 一 部 
电影 并 评 出 等 级 是 很 不 现实 的 ， 所 以 有 很 多 缺失 值 。 

本 章 从 经 典 PCA 的 局 限 性 出 发 ， 介 绍 隐 变 量 模型 以 及 如 何 使 用 隐 变 量 模型 进行 学 习 和 
推理 。 需 要 强调 的 是 ， 在 PCA 领域 之 外 还 有 很 多 种 隐 变 量 模型 一 一 例如 ， 第 6 章 介 绍 的 混 
合 模型 。 但 是 ， 从 经 典 PCA 的 局 限 性 出 发 是 一 个 很 好 的 路 线 ， 沿 着 这 个 有 利和 条件， 本 章 介 
绍 变 分 推理 一 一 一 种 获得 难以 求 出 的 后 验 密度 函数 的 近似 方法 。 近 年 来 ， 该 方法 在 机 器 学 习 
领域 十 分 流行 ， 因 为 它 的 实际 性 能 好 并 且 计算 代价 低 。 


7.3 隐 变 量 模型 


在 很 多 实际 应 用 中 ， 感 兴趣 对 象 的 特征 并 未 体现 在 观测 数据 中 。 这 些 隐 变 量 〈 也 称 隐藏 
变量 ) 可 以 分 为 以 下 两 类 : 

1) 变量 对 应 于 对 和 象 的 真实 特征 ， 但 该 特征 无 法 被 量化 例如， 可 能 是 无 法 量化 的 技术 特征 )。 

2) 抽象 的 质量 ,该 质量 在 现实 中 不 存在 ,但 是 在 模型 中 假定 其 存在 且 起 作用 。 

生物 数据 分 析 领 域 存在 很 多 上 述 情况 。 假 定 一 个 生物 系统 ， 该 系统 有 3 个 分 子 类 型 ， 
A、B 和 C。A 和 C 是 很 容易 量化 的 , 但 BB 是 隐藏 的 。 在 这 种 情况 下 ，B 可 以 视 为 模型 中 的 
隐 变 量 ， 其 值 通过 对 A 和 C 中 的 数据 学 习 得 到 。 

本 章 侧重 于 讨论 第 二 类 隐 变 量 。PCA 是 一 个 很 好 的 例子 一 一 观察 一 组 M 维 的 向 量 y,， 
并 用 其 建立 一 个 DD 维 向 量 集合 x,。 其 中 ,输入 向 量 可 能 是 现实 存在 的 真实 事物 的 量化 结果 。 
然而 ，x 是 隐 变 量 ， 模 型 中 的 隐 变 量 是 基于 假设 建立 的 一 一 不 需要 真实 存在 。 建 立 的 目的 
是 隐 变 量 比 原始 变量 更 加 有 用 ， 例 如 ， 可 以 进行 可 视 化。 

根据 本 章 主题 ， 下 面 集中 介绍 类 似 于 PCA 的 模型 。 首 先 ， 前 文 讲 过 这 些 模型 的 用 处 ， 
然后 将 它 放 在 隐 变 量 模型 框架 下 。 














7.3.1 隐 变 量 模型 中 的 混合 模型 


在 6. 3 节 中 ， 混 合 模型 作为 一 种 强 有 力 的 聚 类 技术 已 经 介绍 过 。 在 一 组 数据 的 生成 过 程 
中 ， 针 对 每 个 数据 对 象 ， 目 的 是 从 K 个 可 能 的 类 别 中 选择 一 个 ， 并 从 这 个 类 别 中 采样 这 个 数 
据 对 象 。 前 文 引 入 一 组 指示 变量 zx ， 如 果 第 n 个 对 象 是 由 第 个 类 别 产 生 的 ， 则 zi 二 1。 这 些 
指示 变量 就 是 隐 变 量 〈 现 实 中 不 一 定 存在 )， 用 于 建立 混合 模型 。 当 使 用 隐 变 量 对 混合 模型 中 
的 参数 进行 推理 时 ， 尽 管 式 (6-19) 给 出 的 参数 g 可 以 使 用 后 验 概率 进行 解释 , 但 是 zx 没有 
被 精确 使 用 。 其 中 后 验 概率 是 对 象 n 经 由 第 & 个 类 别 产生 的 概率 ，p (zi 二 1|x,，x，A)。 该 模 
型 定义 暗示 可 以 通过 生成 一 组 隐 变 量 ， 并 使 用 它们 的 取 值 进行 学 习 。 
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7.3.2 小 结 


本 章 开 头 ，PCA 被 当做 一 种 将 M 维 数据 投影 到 DD 维 空间 (其 中 D<M) 中 的 工具 加 以 介 
绍 ， 该 技术 可 用 于 可 视 化 过 程 (其 中 ，D<2), 或 者 通用 的 无 监督 预 处 理工 具 ， 该 工具 用 于 其 
他 数据 分 析 之 前 “〈 例 如 ， 分 类 、 聚 类 等 ) 。PCA 有 一 些 缺 点 (只 能 处 理 实 值 或 连续 值 数 据 ， 不 
能 处 理 缺 失 数据 )， 这 些 缺 点 也 是 在 随后 章节 中 需要 处 理 的 。 在 这 种 情况 下 ，PCA 是 隐 变 量 模 
型 家 族 中 的 一 种 ， 第 6 章 介绍 的 混合 模型 也 属于 这 一 家 族 。 为 了 在 概率 PCA 模型 下 进行 推理 ， 
需要 使 用 近似 技术 。 第 4 章 已 经 介绍 了 这 类 方法 ， 本 章 介绍 另 一 种 技术 ， 变 分 贝 叶 斯 。 


7.4 变 分 贝 叶 斯 

变 分 贝 叶 斯 (Variational Bayes，VB) 使 用 近似 推理 技术 ， 该 技术 在 机 器 学 习 领 域 十 分 
流行 ， 因 为 它 具 有 很 好 的 实际 性 能 和 较 低 的 计算 代价 。 与 4. 4 节 中 介绍 的 拉 普 拉 斯 推理 相 类 
似 ， 通 过 该 技术 可 以 轻易 地 获得 较 难 的 后 验 概率 ， 其 中 近似 后 验 中 的 参数 是 被 优化 的 ， 目 的 
是 使 近似 值 尽 可 能 与 真实 值 一 致 

虽然 VB 用 于 建立 近似 后 验 ， 这 不 是 它 的 主要 目的 。 其 后 验 的 近似 值 需要 通过 最 大 化 对 
数 边缘 似 然 函数 获得 。 

通常 情况 下 ， 初 始 条 件 是 一 组 数据 Y 和 一 个 含有 参数 / 隐 变 量 9 的 模型 。 注 意 ， 这 里 将 模 
型 的 所 有 参数 和 隐 变 量 用 相同 的 符号 〈6) 表示。 因为 在 贝 叶 斯 框架 下 ， 如 何 处 理 隐 变 量 和 模 
型 参数 没有 太 大 区 别 : 它们 都 是 未 知 的 ， 并 当 作 随机 变量 处 理 。 边 缘 似 然 p(Y) 定 义 为 : 


p(Y) = | zer ,6)d6 (7-5) 


在 式 (7-5) 中 ,忽略 固定 的 边界 条 件 ， 包 括 模 型 类 型 、 先 验 参数 、 超 参数 等 。 这 些 条 
件 随 模 型 /问题 的 不 同 而 不 同 ， 因 此 这 里 使 用 一 般 形式 的 表达 式 ， 当 处 理 特定 问题 时 再 进行 
特殊 化 。 该 式 (7-5) 的 一 种 特殊 形式 已 经 在 3. 4 节 中 第 一 次 介绍 边缘 似 然 时 已 经 提 到 过 。 
注意 ， 该 表达 式 一 般 也 将 联合 概率 密度 p(Y，0) 写成 其 组 成 部 分 表示 形式 : 


p(Y) = Joc le) pc0) de 


因此 ， 式 (7-5) 中 计算 的 边缘 似 然 是 所 有 参数 值 “和 隐 变 量 ) 的 似 然 p(Y19〉 的 平均 
结果 ， 结 果 是 使 用 先 验 知识 进行 加 权 的 如 6)。 该 表达 式 可 以 在 边界 条 件 〈 模 型 结构 、 先 验 
参数 ) 上 最 大 化 。 不 幸 的 是 ， 最 大 化 该 式 是 非常 困难 的 ， 因 为 取 值 范围 是 一 个 潜在 的 高 维 参 
数 空 间 。 该 问题 的 一 种 处 理 方 式 是 降低 对 数 边缘 似 然 的 边界 ， 该 处 理 方式 类 似 于 第 6 章 的 
EM 算法 推导 中 所 使 用 的 方法 。 这 里 使 用 詹 森 不 等 式 (参见 式 (6-7)): 
log Ey (f(z)} > Eps {log f(z))} 
对 数 边 缘 似 然 为 : 


jog DJ = 16g JC,0d0 
从 等 式 右 侧 引入 一 个 关于 9 的 任意 分 布 Q(0) 开始 : 
eg p(Y ,0) 
jon HY a fo JQ ee do 


从 式 (6-7) 中 的 詹 森 不 等 式 可 知 ， 一 个 期 望 的 对 数值 永远 比 对 数 的 期 望 值 大 。 等 式 右 侧 可 
写 为 Q(0) 的 一 个 期 望 (其 中 p(Y，0)/Q(0))， 因 此 使 用 詹 森 不 等 式 建 立 下 界 L(Q): 


p(Y ,0) 
oe Den = log |Qce) ees do 


plY,0) 
Q(0) 











之 |Qce)nos db = CCQ) G76) 
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计算 真实 的 对 数 边 缘 似 然 与 新 下 界 之 间 的 差 值 ， 该 差 值 反映 了 如 何 获得 一 个 近似 后 验 : 


log pCY) 一 CQ) = log p(Y) 一 |QCo)log Dore 


pl0|Y)p(Y) 
Gay 


dg 





= log p(Y) 一 |Qce)log 
轧 (0O|Y 
Q(0) 


pOIY 
Q(0) 
p(0 
QO 


log p(¥) —£(®=— [Qe)log 29 40 一 =— KL[Q(0) | p(0|Y)] (7-7) 


该 表达 式 就 是 真实 后 验 p(0|1Y) 和 近似 后 验 Q(0) 之 间 的 Kullback-Leibler (KL) 散 度 ， 参 
见 注 解 7. 2。 

| 注解 7. 2 (Kullback-Leibler 散 度 ) : 度量 两 个 概率 分 布 之 间 的 不 同 是 很 重要 的 。 例 如 ， 如 
果 想 要 找到 与 真实 后 验 相 似 的 近似 后 验 ， 首 先 需 要 定义 什么 是 相似 性 ! Kullback-Leibler 
散 度 就 是 这 样 一 个 用 于 衡量 相似 性 的 标准 ， 该 标准 起 源 于 变 分 贝 叶 斯 技术 。 它 定义 离散 
与 连续 分 布 : 





= log pl(Y) 一 |Qco)los )db 一 JQ log p(Y)d0 





= log pl(Y) 一 |Qco)los )d0 一 log p(Y) [Qc0) do 








= lo 一 |Qcolog 46 一 jog BOY 








KLLg(x)|| p(xz)]1= Ja log ES (连续 ) 


KL[Lg(x) | p(x)]= yq(z)log = (离散 ) 


连续 分 布 通常 是 很 难 计 算 的 ， 因 为 需要 在 一 个 湾 在 的 高 维 空间 中 计算 积分 。 
Kullback-Leibler (KL) 散 度 的 一 个 重要 属性 是 其 不 对 称 性 一 一 KLLg(z) || zz)] 关 
KL[Lp(x)||qlx)]。Kullback-Leibler 散 度 通常 小 于 等 于 0， 当 p(x) 二 g(x) 时 为 最 大 值 。 














式 (7-7) 左 侧 必 须 大 于 或 等 于 0 (记得 L(Q) 是 log p(Y) 的 下 界 )。Kullback-Leibler 
散 度 是 对 两 个 概率 分 布 之 间 不 相似 性 的 一 个 度量 ， 只 有 当 这 两 个 分 布 完全 相同 时 ， 取 值 为 
0; 否则 ， 小 于 0。 使 用 不 同 的 Q 最 大 化 CCQ)， 减 少 了 KL 散 度 为 负 的 可 能 性 ， 因 此 使 得 
Q(6) 越 来 越 接近 于 真实 后 验 如 (6|Y) 。 如 果 Q(C) 和 p(0lY) 相同 ， 该 下 界 等 于 真实 对 数 边 
缘 似 然 (参见 练习 EX 7. 1) 。 


7.4.1 选择 0(9) 


前 文 提 到 ， 如 果 通 过 最 大 化 Q(0) 的 下 界 使 Q(0〉 越 来 越 接 近 于 真实 后 验 ， 那 么 首先 需 
要 选择 Q(6) 的 形式 ， 并 且 该 形式 的 选择 可 以 简化 最 大 化 式 (7-6) 边界 的 过 程 。 但 这 是 有 
利 有 粗 的 ，Q(6) 的 表达 式 越 复杂 ， 下 界 就 越 难 优 化 ， 但 可 以 得 到 一 个 较 好 的 近似 结果 
Q(6) 的 形式 简单 ， 优 化 过 程 也 就 简单 ， 但 近似 结果 可 能 很 差 。 通常 的 假设 条 件 是 不 同 参数 / 
隐 变 量 0 之 间 的 独立 性 假设 : 


工 
QC) = [| Q co) . (7-8) 


其 中 ，/ 二 1…L 是 相互 独立 的 或 者 参数 集合 或 者 隐 变 量 集合 。 例 如 ， 模 型 可 能 有 M 个 参数 
向 量 w;, 和 N 个 隐 变 量 x,， 分 别 表示 为 W 和 羡 。 假 设 这 些 参数 集合 之 间 是 相互 独立 的 : 
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进一步 ， 假 设 该 分 布 中 一 个 或 者 多 个 M (或 者 N) 类别 是 独立 的 : 
Qw (W) = li (w,), Qx(X) = IIa. er。 
更 进一步 ， 例 如 ， 我 们 假设 在 x, 的 DD 维 是 独立 的 | 
QxCX) = I Te (zna) 
假设 在 真实 后 验 中 这 些 参数 是 相互 依赖 的 ， 独 立 性 假设 越 多 ， 近 似 结果 可 能 越 差 。 这 也 是 上 
文 的 一 个 例子 ， 较 多 的 独立 性 假设 使 得 优化 下 界 变 得 容易 ， 但 近似 结果 变 差 。 
7.4.2 优化 边界 
如 果 使 用 式 〈7-8) 来 建立 Q(6) ， 该 边界 可 使 用 下 面 形式 的 分 布 优化 获得 : 


exp( 五 ，， { log plY ,0) } ) 
exp(E,{log plY,0)})d0, 


Q,(0,) ee (7-9) 


其 中 期 望 是 式 〈7-8) 中 除了 第 /个 分 布 外 ， 所 有 独立 分 布 之 和 。 

这 个 表达 式 并 不 像 看 起 来 那么 复杂 。 分 母 是 简单 的 归 一 化 常数 ， 通 常情 况 下 ， 其 形式 由 
分 子 中 0, 的 形式 决定 。 例 如 ， 线 性 (91b) 和 多 项 式 (0140,) 项 决定 了 Q (6) 是 高 斯 的 ， 
那么 归 一 化 常数 就 确定 了 。 

计算 每 一 个 Q,(9,) 需要 对 所 有 Q (0) 取 期 望 。 类 似 于 第 6 章 的 EM 算法 ， 近 似 后 验 
的 优化 通过 迭代 过 程 完成 。 


7.5 PCA 的 概率 模型 


为 了 说 明 变 分 贝 叶 斯 ， 这 里 从 一 个 类 似 于 PCA 的 概率 模型 开始 。 假 定 观 察 到 ”一 1…N 
个 M 维 输入 向 量 y,， 任务 是 找到 一 个 D 维 表示 x, (其 中 DM)。 首先 ， 使 用 下 面 模型 对 
y 和 x, 建立 联系 : 
yy» = Wx, 二 Tv 








252| 其中, W 是 一 个 MXD 的 矩阵 且 v 是 一 个 MX1 的 噪声 向 











量 。 这 个 模型 的 图 形 表示 (参见 3.6 节 ) 如 图 7-5 所 示 。 
对 先 验 进行 以 下 假设 : 
plx,)= NO0,T1,) 


pW)= [I ace) 


plw,)= NO0,T1) 
pym)= Nwhx,sr!) 
ms 
其 中 W=Lwi，…，wxm] ， 为 了 方便 起 见 ， 这 里 对 噪声 
rCr "二 0 ) 的 参数 定义 使 用 精度 而 不 是 方差 。 
任务 是 使 用 变 分 贝 叶 斯 推理 XX=[x;，…，xw]"、W 和 


t 的 近似 后 验 。 第 一 步 是 对 Q(W，XX，z) 进行 分 解 : 图 7-5 概率 PCA 模型 的 图 形 表示 


plrlasb)= Tadby) 一 
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QCY,X,nD = QoF Te 0) Ie 00) 
即 ， 假 设 这 3 个 参数 集合 是 相互 独立 的 (为 了 简单 起 见 ， 从 现在 开始 ， 将 隐 变 量 x, 作为 参 
数 )， 并 额外 添加 半 和 W 的 不 同 向 量 组 分 之 间 的 独立 性 。 
为 了 获得 每 一 个 Qi(6,) 的 表达 式 ， 需要 从 式 (7-9) 中 求 取 log p(Y，0) 的 期 望 值 。 在 [253 
这 个 例子 中 ， 该 期 望 值 是 在 标准 IID 假设 条 件 下 ): 


Pp(Y,X,W,r) =p(lrla :| [ecw || [expo Wo | 





log p(Y,X,W,r) 一 log brla,o) 十 2 log plw,) 十 > log plx,) 


十 Dlog ply, |W,x, ,rt) 


因为 噪声 向 量 w 的 协 方差 矩阵 是 对 角 协 方差 矩阵 ， 所 以 等 式 右 侧 的 最 终 形式 可 以 展开 为 
一 个 中 独立 元 素 y, 的 相 加 : 
log plY,X,W,r) =log plrla ,b) 


M 
十 3》 log p lvw,) 


十 log plx,) 





N M 
+ 2) >) log py [ws xn st) (7-10) 
n= m=1 


其 中 
DCRon |w, Xn ,T) 一 MN (whx, ,rr 1) 
将 以 此 定义 这 个 后 验 概率 中 的 每 一 项 。 


了.5.1 w(x) 


从 式 (7-9) 可 得 
Q:(r) cc exp(Ea, wa,ow {log p(Y,X,W,7)}) 
忽略 表达 式 中 任何 不 包含 + 的 项 ， 因 为 这 些 项 包含 在 归 一 化 常数 中 。 式 〈7-10) 中 依赖 
于 zt 的 项 只 有 第 一 项 和 最 后 一 项 。 重 写 为 : 
log pl(Y,X,W,r) cc a log b+ (a— ei cr— b= lvoe Jo 


— log 2x 十 之 1 


去 掉 新 的 不 包含 rz 的 项 〈 这 里 有 ae 剩余 项 为 : 
Q.(Cr)cc exp( Fo. (XQ, (W) {log plY, X， W,r)}) 


cc exp((a 一 Dlogr 一 折 十 六 log = 


Xx exp(— Eavowa,ow | > bp Ci 本 whRa) | ) 254 
前 文 提 到 : 
Exw {f(a) + g(a)} = Ew {f(a)} + Eo (g(a)) 
对 所 有 项 取 期 望 并 分 别 相 加 。y 也 是 可 观测 数据 ， 因 此 : 
Eo CQ (ww,) { Ynm } = on 





255 
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因此 ， 只 需 考 虑 
exp( 一 i (yim + Eo (jo, ww) {— 2 wax Tt xrwmwnr,)}) ) 


第 一 眼看 起 来 还 是 很 难 ， 但 是 ， 考 虑 下 面 的 期 望 ， 
Esco (f(a) f (0))} 


展开 得 到 : 
五 poato (f(a)f (6)}= || pcpop Fea) fo) dads 
尘 |jpce /eadap C6) fC6) ds 
Jyeo {fla)}p(6b)f(06) 
= Eyw (f(a)} Ew (f(05)} (7-11) 
使 用 这 个 结果 ， 可 以 衡量 表达 式 中 第 一 个 参数 : 
Ea, (0 (w,,) (=— 2 waxa}) 一 一 2Ea, x) {x } Eo, (w,) {vw } 


这 是 x, 的 〈 均 值 ) 期 望 值 乘 以 zw 的 期 望 值 。 在 继续 下 面 的 工作 之 前 ， 有 必要 先 介绍 一 个 更 
加 有 用 的 概念 ， 因 为 后 面 会 有 很 多 这 样 的 表达 形式 。 从 现在 起 ， 期 望 定义 为 以 下 形式 ， 
Eo, co) (f(0,)} 三 《f(0,))» 
期 望 中 的 第 一 项 写作 : 
Ea (Va, co (— 2 waxn) =— 2(x,) (vw) 
第 二 项 需要 一 点 小 技巧 ， 不 能 把 它 写作 f(x,)g(w,)， 因 此 只 能 一 次 求 期 望 
Eo (ry0, ow,) {Xmtw mWnXn ) 一 Eo (ry {x Cw ny} 


= (x (ww ) x, ) 


把 每 一 项 放 在 一 起 ， 有 : 
Q.(Cr) cc | 1)log cr—br + log t 


ea BW 二 
2 2 (3 2(w,» 0 


可 以 写成 
Q(T) cc tr exp(— zf) (7-12) 
其 中 


f=6+ 训 DD 2) (x) + (xT (wwt Dx,)) 


式 (7-12) 的 形式 说 明 Q.(r) 是 参数 为 e、f 的 7 分布。 如 果 怀 疑 这 个 结果 ， 可 以 对 参数 为 e 
和 了 的 7 密度 函数 求 对 数 ， 并 去 掉 不 依赖 于 rz 的 项 一 一 可 得 式 〈7-12) 右 侧 的 结果 。 
总 之 : 





Q.(z) = TT(e,f) 


现在 ， 得 到 Q. (x,) 和 Q。(w,) 一 一 得 到 这 些 形式 就 可 以 计算 。 和/ 所 需要 的 期 望 值 。 





7.5.2 Q, (x,) 


为 了 获得 Q. (x,)， 所 需要 的 步骤 很 多 ， 且 都 与 得 到 Q.(r) 需要 的 步 又 相同 。 开 始 ， 我 
们 从 log p(Y，X 半 ,，W，r) 中 提取 需要 的 全 部 项 ， 忽 略 包 括 x, 的 所 有 项 : 
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Q。 (xn ) cc exp( Ea,cwa,s | log plx,) 十 Dy poy, [vw » x |) 


注意 ， 对 于 所 有 的 /了 nn 期 望 也 应 该 与 所 有 的 Q(x,) 相关 。 然 而 ， 在 我 们 的 表达 式 中 不 存 
在 x 项， 因此 期 望 也 就 不 存在 了 。 在 期 望 中 展开 这 两 项 并 且 删 除 没 有 x; 的 项 ， 我们 有 : 


Q- (xn) oc exp( Ea.cwa.eo | 六 rz 2YrmXn Wt rwnwnr) | ) 





1 -4 生 2 党 下 图 
cc exp(— FxXrx, 372 Zn Con) + 2 Cun ys) ) 


cc exp(— (|i +《r) >， (wr) | — 2 Dam (wan) ) ) 
期 望 中 出 现 的 线性 和 平方 项 告诉 我 们 ， 这 是 一 个 高 斯 分 布 : 





Qs (Xn) = hs ,了 ) 256 











利用 系数 相等 我 们 可 以 从 表达 大 式 中 得 到 jo。 和 于. 
各 ‘| I 十 《r》 oo 了 (aonmz)》 | 
2.= [I+ DD eww] (7-13) 
— 2x1Bi'p: =— 2(r) x 2 ym (wa) 
,= 《6》 服 ,Dym (wn ) (7-14) 
注意 ， Pe 它 只 需要 计算 一 次 并 可 以 应 用 于 所 有 的 x,。 


7.5.3 Q, (wh) 
计算 Q。(zww) 的 方法 在 本 质 上 与 计算 Q(x,〉 的 方法 是 相同 的 。 我 们 从 删除 所 有 不 包 
含 ww, 的 项 开始 : 
Q。(rw ) cc exp( Eocoo {log p(w ) 十 Dp |w, 7)) ) 
再 次 ， 对 于 所 有 的 1 关 m 关于 Qs (wi) 的 期 望都 不 存在 了 。 扩 展 ， 注 意 wnx, 王 xntw: 


Q。 (wn ) oc exp( Ea.cwa.0 | Lt ; tO) ~— 2yrm wz + wrx ern ) | ) 





2 


cc exp( 一 于 wo 一 这 ( 中 对 ( 一 2ym ws) + wh Cr) ww) ) 


cc exp(— (wl 十 (7) 2 Cc) | wa— 2(t) wr 2 ym x) )) 


很 明显 ， 这 是 另 一 个 高 斯 分 布 : 
Qu (vw) 一 Nw, ,ZT ) 


又 .= 区 《ey Gx) 

be, = (7) Du, DJ Ym 6,) 
与 有 .一 样 ， 协 方差 矩阵 环 ,, 不 依赖 于 m 并 且 对 于 所 有 的 w,， 有 2 只 需要 计算 一 次 。 元 
7.5.4 期 望 值 要 求 


我 们 得 到 的 近似 后 验 Q(x,)、Qw, (ww)、Q:(Cr) 的 每 一 部 分 都 依赖 于 与 其 他 部 分 相关 
的 期 望 ( 例 如 ，《x,〉 和 《wmrwmn))。 由 于 所 有 的 部 分 都 是 常见 分 布 ， 所 以 这 些 期 望都 是 标准 
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的 结果 。Q (x,) 和 Q。 (rn) 都 服从 高 斯 分 布 并 且 有 : 
x1) 一 有 (xxz )》 一 瑟 Th hr 
(wn) = ho wntwn) = BD thw, Lv 
Q:(r) 是 7 分 布 ， 因 此: 


(tz) 二 二 


f 
我 们 想 要 的 最 后 的 期 望 是 《xx 《wrwwn)x,)。 这 属于 〈z Az 〉 形 式 ， 其 中 如 果 p(z)= 二 NN (4， 
互 ) 则 等 同 于 : 
(z'Az ) = Tr(A5) Tp An 
因此 : 
(xx (Wwntwn) xa) = Tr wwn)D. ) Te CWwnton) 


7.5.5 算法 


我 们 现在 已 经 利用 变 分 贝 叶 斯 方法 (VB) 得 到 了 获得 近似 后 验 QCW，X，r) 的 全 部 准 
备 。 首 先 我 们 必须 初始 化 参数 。 我 们 将 以 初始 化 〈z) = 二 a/5 (期 望 优 先 值 ) 开始， 然后 从 分 
布 (wa,〉 中 抽样 每 一 个 NC(0O，Ip)， 并 计算 《ww ") 二 了 十 (Cw) 《rw )"。 现 在 我 们 能 计算 rs 
和 允 ， ， 因 此 也 能 计算 出 《x,》 和 《x,x，)。 步 又 如 下 : 

1 对 于 所 有 的 72， 计算 互 和 J ， 并 且 更 新 《xu 》 和 人 寺 

2) 对 于 所 有 的 m， 使 用 新 产生 的 《x,〉 和 《xxs)， 计 算 pw 和 马 , 并 更 新 (w,〉 和 
(tt ) 。 

3) 对 于 所 有 的 nn 和 mm 计算 《xbwwl)x,)。 

4) 计算 e 和 了， 并 更 新 《tr)。 

5) 如 果 不 收 仿 ， 则 返回 到 1)。 

为 了 检查 收敛 性 ， 我 们 可 以 监测 参数 的 变化 情况 也 可 以 计算 边界 CC9) ( 式 (7-6)), 它 
将 递增 至 收敛 ， 然 后 保持 不 变 。 边 界 由 下 式 给 出 : 


LX WD = [QCX WD log BOE dQX Wo) 


上 [Qc log D(a Yd) —|Qclog Qc.)dQ(.) 
利用 独立 性 假设 并 注意 两 个 表达 式 都 是 和 QC(。) 相关 的 期 望 ， 我 们 可 以 进一步 分 解 这 两 项 ， 
|oconos pl(*)dQ(:) =Eo, (log plrla ,6b)} 


+ DEa, 6 {log p(x,))} 
n=1 四 
M 

十 2 Ea, ww {log plw,))} 
m=1 下 


N M 
士 六 D7 Eo. (x)Q, (wj)Q.c® (log PlyYnm [x Twn »T)} 
n=1 m=1 四 


JQ og ac)dQc) =Eeetlog QCD) 
+ 2) Eo 6 {log Q。 (x,)) 


M 
Ee Ea, cw {log Qu (ron)) 
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这 些 单独 项 给 出 边界 〈 按 照 上 面 的 顺序 每 一 行 对 应 一 个 期 望 ) 留 给 读者 证 明 〈 详 见 练习 
EX 7; 2).; 
LX,W,r) =a log b+ (a—1)(log tr —b(r) — log Tl(a) 


ND 1 zt 
2 log 2r 一 本 2 (Tr.) + pih ) 








log 2 3 > (CTr( 孔 ) tp pw ) 





Vlog 2r + (log t) — Fr) DCym 一 or) 


— (elog fi(e—1)(log7r)— flr)— log Tl(e)) 
ND ND 
( 2 log 2x 3 2 log|D. 由 


(一 iog2xr 一 2 3 Dlog|z. | ) 








其 中 ， 

《一 
所 有 项 都 已 经 计算 出 来 。 在 边界 上 我 们 以 前 没有 见 过 的 唯一 一 项 是 〈log r》。 我 们 不 得 不 估 
计 这 一 项 ， 我 们 可 以 通过 采样 做 到 这 点 。 如 果 我 们 抽取 S 个 样本 rz ，…，r， 按 照 如 下 方法 
给 出 估计 : 


(log rt) 2 log 人 
sad 


7.5.6 例子 


图 7-6a 展示 了 一 个 数据 集 ， 这 个 数据 集 的 生成 方法 和 图 7-4 (MATLAB 脚本 : ppcae- 
xample. m) 描述 的 例子 是 相同 的 。 在 两 维 中 有 很 清晰 的 聚 类 结构 。 此 外 ， 额 外 的 5 维 被 加 
入 (ym 一 NN(0，1))。 边 界 演 化 过 程 C(X ,W ,rz) 作为 算法 的 执行 过 程 (D 二 2) 可 以 在 
图 7-6b 中 看 到 。 边 界 单调 递增 直到 收 傅 ， 这 仅仅 需要 很 少 的 迭代 次 数 。 在 图 7-6c 中 我 们 能 
看 到 隐 变 量 的 后 验方 法 。 这 和 标准 的 PCA 投影 (图 7-4c) 有 很 多 相似 之 处 。 明 显 聚 类 结构 
是 在 隐 变 量 空间 中 形成 的 。 
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图 7-6 PCA 例子 的 合成 概率 
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Xnl 
c) 隐 变 量 的 后 验 均值 
图 7-6 ( 续 ) 


7.6 缺失 值 


我 们 把 表示 方法 变 成 概率 形式 的 目的 之 一 就 是 有 利于 处 理 缺失 值 。 在 前 面 章节 定义 的 模 
型 中 ， 解 决 这 个 问题 的 最 早 方法 是 仅仅 为 观测 数据 定义 一 个 模型 。 为 了 这 个 目的 ， 我们 引进 
了 一 套 新 的 二 元 变量 z,,, ， 当 我 们 观察 对 象 n 的 特征 m 时 ， 变 量 为 1; 否则 为 0。 对 于 所 有 
的 zw， 得 到 矩阵 Z， 我 们 有 : 


M N M 
pl(Y,X,W,r|Z) =p(rla Df Tew ) || I eee) I py Pi i ee ] 


log pl(Y,X,W,rt|Z) =log brla,o) 十 > log p(w ) 十 2 log px) (7-15) 


EE 3 Ds. log plysm [Ww » Xa» T) 


n=1] m= 


二 元 变量 的 作用 是 充当 开关 ，; 只 提供 我 们 观察 的 数据 项 。 注意 ， 上 述 这 些 如 何 受 限于 
Z。 根据 前 面 章节 的 详细 步骤 推导 出 必要 的 变量 分 布 留 给 读者 作为 练习 〈( 详 见 练习 EX 7. 3) 。 
这 些 是 : 
Q:. & =N (kr ,了 ) 


-k 


5. =[1 + (Tr) > yzmm (zoneoT ) | 
Ls, = (TD. Dm ym (Wn) 
Qu Cwa) =N (ps Bs ) 
5, = | ry Bent |] 
Ww, =(T)D, Dzomynm (Xn) 
Q.(7) =T(e,f) 
e=a 于 管 各 jw 
三 一 0 十 二 SE nm Cam — 2 wm) (xa) + xT (wn xn) 


在 前 面 的 章节 中 ， pe 和 矣 。 的 方程 分 别 不 依赖 于 nn 和 xm， 相反 ， 不 需要 对 
每 个 n 和 m 都 进行 计算 。 由 于 在 两 个 表达 式 中 都 存在 zsm， 所 以 不 会 再 有 这 种 情况 ， 并 且 对 
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于 每 一 个 x, 也 不 用 再 计算 一 ， (对 每 个 zw。 也 同样 不 用 再 计算 五 。 ) 。x, 和 w 都 是 D 维 的 ， 
所 以 对 大 的 N、M 和 D， 这 将 是 很 大 的 计算 量 。 在 7.4.1 节 中 ， 当 定义 近似 后 验 组 分 时 ， 
我 们 提 到 了 提出 额外 的 独立 假设 的 可 能 性 。 特 别 地 : 


D 
QQ Cry = [| Qs to) 


这 将 使 得 我 们 必须 使 用 标量 方差 而 不 是 DXD 的 协 方差 矩阵 马 , 。 这 将 很 大 程度 上 降低 计算 
量 , 但 是 以 更 坏 的 后 验 近 似 程度 为 代价 的 。 

图 7-7 给 出 了 带 有 缺失 值 的 概率 性 PCA 模型 (MATLAB 脚本 : ppcamvexample. m)。 
图 7-7b 给 出 了 变 元 后 验 Q. (x,) 的 后 验 均 值 。 数 据 与 前 面 例 子 中 的 数据 相同 〈 图 7-7a 中 给 
出 了 数据 的 前 两 个 维度 的 簇 结 构 ， 剩 下 5 个 维 中 的 噪声 )， 其 中 每 一 个 ww 的 值 以 0.05 的 概 
率 变化 。 正 如 我 们 期 望 的 那样 ， 移 动 数据 的 影响 是 聚 类 结构 不 那么 明显 了 。 单 独 的 协 方差 矩 
阵 使 这 个 影响 更 容易 表现 出 来 。 在 图 7-7c 中 ,我 们 把 三 个 圆 类 对 象 看 做 椭圆 ， 使 协 方差 矩 
阵 更 加 具体 化 。 椭 圆 告诉 我 们 模型 把 不 确定 程度 归结 于 隐 变 量 的 值 。 在 这 两 维 中 对 象 1 没有 
缺失 值 ， 这 些 值 可 以 影响 艇 结构 并 与 同类 中 的 其 他 对 象 具有 相似 的 特征 。 对 象 2 关于 ys 的 
值 是 缺失 的 ， 也 就 是 那些 决定 样本 是 属于 圆 类 还 是 钻石 〈 见 图 7-7a) 类 的 信息 。 在 图 7-7c 
中 这 表现 在 它 的 均值 和 方差 上 了 一 一 这 个 模型 使 得 样本 位 于 不 同 团 的 中 间 , 但 是 也 存在 它 位 
二 者 中 的 任何 一 个 内 的 可 能 性 。3 缺失 ya 和 ys 一 一 全 部 非 噪声 特征 。 模 型 使 它 放 到 离 原 点 
很 近 (记得 前 验 p(x,) 二 NN(0,1s)), 但 具有 很 高 的 不 确定 性 一 一 可 以 属于 任何 组 。 
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c) 缺失 值 在 协 方差 C.,(x,) 上 的 影响 


图 7-7 ”有 缺失 值 的 变 分 贝 叶 斯 PPCA 模型 。 数 据 是 与 图 7-6 中 的 一 样 ， 其 中 每 一 个 yw 的 值 以 0.05 的 概率 变化 
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显然 图 7-7c 中 给 出 的 协 方差 信息 是 模型 给 出 的 很 有 用 的 输出 信息 。 知 道 关 于 隐 变 量 空 
间 中 的 对 象 x, 位 置 是 否 有 很 高 的 不 确定 性 是 很 重要 的 。 换 句 话说 ， 如 果 我 们 仅 看 图 7-7c， 
我 们 可 能 推断 出 ， 我 们 不 应 该 得 出 任何 关于 对 象 3 位 置 的 严重 结论 因为 缺失 值 导 致 协 方 
差 很 高 。 在 7.7. 2 节 中 ,我 们 将 看 到 一 个 协 方差 信息 很 有 用 的 有 趣 例子 。 


7.6.1 缺失 值 作为 隐 变 量 


在 前 面 的 章节 中 ， 我 们 已 经 看 到 VB 框架 如 何 允 许 我 们 解决 缺失 值 的 问题 一 一 我 们 仅仅 
包含 了 模型 中 观察 到 的 值 。 当 一 些 缺 失 值 通过 单独 的 协 方差 矩阵 也. 自然 地 处 理 时 ， 增 长 的 
不 确定 性 也 出 现 了 。 具 有 额外 计算 负担 的 单个 协 方差 矩阵 ， 有 些 情 况 下 ， 这 些 负 担 过 高 。 作 
为 一 个 选择 ， 可 以 考虑 把 缺失 值 作为 额外 的 隐 变 量 。 引 进 上 标 h 和 o 分 别 表示 隐藏 的 和 可 观 
测 的 。 这 相当 于 下 面 的 联合 对 数 似 然 : 


log p(Y,X,W,r|Z) =log plrla,b) + Dlog plw,) + >)log plx,) 





N M 
+ >， >) znlog py [wns Xn st) 
n=1 m=1 


N M 
十 >) >)(1 一 zwm)log 力 (yi [wn sx st). 


w=1 m=1 


此 外 ， 我 们 需要 另 一 组 变 分 后 验 : Q (xy )。 在 此 我 们 将 忽略 VB 算法 的 推导 ,但 是 会 
说 明 重要 的 结果 。 首 先 ， 额 外 的 变 分 后 验 : 
Qy yn) = Nwn)T (xn), (cr) ) 
所 以 ，《ym) 二 《ws) 《x,)。Q: (x,) 是 通过 一 个 有 下 面 参数 的 高 斯 分 布 给 出 的 : 


5 = [To + Cr) Drm wm?) + 已 G 一 so | 


一 ! 
=[ 1 + (7 > wns) | (7-16) 
Ws, = (EB. >) comysn (1— gam) ym )) (vwn) 


一 《z) 孔 Dy (wn) 


其 中 y; 是 一 个 具有 元 素 yw%, 和 “YW, 的 向 量 ， 它 依赖 于 是 否 有 特别 的 参数 被 观测 到 。Q。 (row ) 
和 Q.(r) 很 相似 。 

从 式 (7-16) 中 可 以 清楚 地 看 到 Q.(x,) 的 方差 不 再 依赖 n， 因 此 不 再 对 每 个 对 象 都 需 
要 一 个 特定 的 协 方差 和 矩阵。 事实 上， 可 以 观察 到 VB 算法 的 结果 与 原始 VB PCA 的 结果 一 
样 ， 在 这 个 算法 中 我 们 在 每 一 个 缺失 值 位 置 插入 一 些 模型 中 期 望 的 ww (例如 《〈zon) (xz )) 
处 缺失 的 值 。 这 在 很 大 程度 上 降低 了 计算 量 ， 但 我 们 丢掉 了 目标 的 协 方差 矩阵 瑟 。 在 隐 变 
量 空间 中 ， 所 有 的 目标 有 相同 的 协 方差 ， 不 考虑 有 多 少 观测 或 者 丢失 的 值 ， 因 为 没 观 测 数据 
的 期 望 值 〈y 国 》 与 实际 数据 具有 同样 的 影响 。 如 果 缺 失 值 很 少 ， 那 么 这 可 能 不 是 问题 。 如 
果 有 许多 缺失 值 ， 那 么 应 该 避免 。 


7. 6.2 预测 缺失 值 


考虑 将 缺失 值 作为 隐 变 量 的 好 处 之 一 是 自动 地 把 错误 归咎 于 缺失 值 。 然 而 ， 我 们 仍然 能 
够 使 用 原始 的 缺失 值 模 型 做 到 这 一 点 。 特 别 地 ， 与 变 分 后 验 相关 的 yw 的 期 望 值 是 : 
Ec..) { yim } =Ea.) (wanx, +e} 
= (wna) (x,) 
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其 中 eN(0，r ')。 预 测 值 的 方差 为 : 
var{ ym } = Ea { (yum) } — Eacy (om 站 
= (x (wtwd 2 十 (r) CO— (Cx) vw) Cw) (xX) 
作为 一 个 例子 ， 考 虑 图 7-7c 中 的 对 象 2 一 一 用 这 些 表 达 式 ， 缺 失 值 yo 有 均值 0. 5839 和 方差 
5.4070。 


7.7 非 实 值 数 据 


为 了 处 理 非 实 值 数据 是 7. 2. 2 节 讨 论 过 的 为 了 实现 概率 性 表示 的 第 二 个 目的 。 在 我 们 介 
绍 VB PPCA 时 ， 我 们 使 用 了 高 斯 似 然 。 使 用 相同 的 步 又， 我 们 可 以 使 用 VB 推导 出 具有 车 
代 可 能 性 的 近似 PCA 模型 。 由 非 实 值 数 据 和 缺失 值 组 成 的 一 个 有 趣 的 数据 集 来 自 Public 
whip (http://www. publicwhip. org. uk) 的 可 用 的 英国 议会 成 员 选 举 投票 历史 。 英 国 的 议 
会 成 员 选举 是 在 普通 的 选举 中 选举 国会 成 员 。 一 届 国 会 大 约 持续 4 一 5 年 ， 在 这 段 时 间 里 大 
约 举行 1000 次 选举 。 每 张 选票 由 二 值 选择 〈 议 会 成 员 或 者 完全 支持 或 者 完全 反对 议员 的 提 
议 ) 组 成 。 议 会 成 员 不 一 定 要 投票 ， 他 们 可 以 选择 弃权 ， 或 者 在 选举 当天 不 出 席 。 所 以 ， 这 
些 数据 既是 非 实 值 的 也 包含 了 一 些 缺 失 值 。 

正如 我 们 在 第 4 章 中 看 到 的 一 样 ， 二 值 数据 通常 都 伴随 着 分 析 性 问题 。 不 必 重 温 那 一 章 
的 内 容 ， 我 们 现在 将 展示 一 个 基于 引进 一 个 辅助 变量 (隐藏 变量 ) 的 选择 性 方法 。 表 明 
PPCA 模 型 不 是 解决 这 个 问题 的 唯一 途径 并 不 是 我 们 的 目的 ， 但 这 是 一 个 处 理 二 值 似 然 更 一 
般 技术 的 很 好 实例 。 我 们 建议 读者 可 以 阅读 本 章 末尾 的 选择 性 概率 二 值 PCA 算法 。 


7.7.1 概率 PPCA 


我 们 观察 了 NN 个 议会 成 员 的 M 张 选票 。 对 每 一 张 选票 ， 假 设 没有 缺失 值 〈 例 如 ，z 二 1)， 
我 们 观察 y, 二 士 。 如 以 前 一 样 ， 我们 将 假设 有 一 些 DD 维 的 未 被 观察 到 的 由 一 组 向 量 w, 映 射 的 
隐 变 量 x,。 在 前 面 的 例子 中 ， 我们 对 p(y 1w,，x) 使 用 了 高 斯 似 然 。 为 了 模拟 二 值 的 议会 成 
员 数 据 ， 我 们 将 使 用 概率 似 然 作为 替代 。 概 率 函 数 〈 也 称 为 正 态 条 件 密度 函数 ) 定义 如 下 : 


$(z) 一 | ee{- ps 


并 把 一 个 实 值 的 变量 = 转换 为 0 一 1 (类 似 于 第 4 章 中 用 于 逻辑 回归 的 sigmoid 函数 ) 。 特 别 
地 ， 我 们 将 定义 : 
P(ym = 1 | w, x, ) 二 hrsr,) (7.17) 


和 
Plys 二 一 工交 二 1 一 Po = 1 |vw,%) 

不 幸 的 是 ， 如 果 我 们 试 着 阐述 变 分 后 验 Q.(x,)， 我 们 将 发 现 它们 不 属于 任何 可 识别 的 
形式 。 此 时 ， 我 们 使 用 一 个 略微 奇怪 的 技巧 。 我 们 从 引入 一 组 新 的 〈 实 值 ) 变量 q 开始: 
plgm [ws x,) = N wihx,,1) 

我 们 通过 下 面 的 似 然 函数 ， 连 接 观 测 到 的 数据 ww : 
Plysn = gm) = 6(Cgm > 0) 
和 
Ply =— 1 = Han OY 
为 了 证 明 选 择 的 正确 性 ， 考 虑 g,,, 和 yn 的 联合 分 布 : 
P (yam = 1,grm [Wns Xn) = Pym = 1| gm) pgnm [tw Xn) 
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选择 PCy,, 二 1|g,) 二 6(gsw 二 0) 意味 着 如 果 我 们 忽略 g,,, ， 我 们 将 重新 回 到 原始 的 概 
率 似 然 〈 式 (7-17)): 


Plyss = 1|w, sx) = | 2 = 1 ,gum [Ww » X,) dq 
=| Po = 1|g) pg wns xX,) dq 
=|_ Seo. > 0 MN Cv x s 1d, 
=| N (whx, ,1)dqn 
= N (0,1) dg 


-| N(0,1) dg = $Cwhx,) 


265 这 表明 我 们 可 以 把 概率 似 然 作为 具有 附加 参数 om 的 模型 的 结果 ， 并且 已 经 被 整理 过 。 
这 表明 如 果 这 个 参数 (我们 把 gq, 看 做 是 一 个 隐 变 量 ,， 并 推断 它 的 值 ) 被 留 在 VB 算法 中 ， 
那么 将 变 得 十 分 简单 ， 即 使 有 一 个 额外 的 N XM 阶 的 参数 。 图 7-8 描绘 了 模型 表示 的 含义 。 











图 7-8 概率 PCA 模型 的 图 形 表 示 


把 所 有 的 gq 整理 为 一 个 NXM 的 矩阵 QQ， 下 面 是 VB 算法 的 开始 点 : 
log p(Y,X,W,0Q) -log| I[ pw ) | I pox,)]| 


N 


M 
xX [I [| py | gam ) > Pp gum |w, | 
=] 


n=1] m= 


= Dlog p(wn) 十 Tj plx,) 


十 >) >)zm[log plynm |qum) + log pq [tw » x) 


n=1 m=1 


对 于 变 分 近似 ， 与 以 前 一 样 ， 我 们 需要 Q. (x,) 和 Q。(w,,)， 还 有 Q，(qw )。 把 所 有 
包含 x, 和 ww" 的 项 聚 到 一 起 ， 我 们 发 现在 实 值 模型 中 它们 与 这 些 项 是 一 致 的 ， 除 了 用 gq, 替 
换 ymw， 并 且 方 差 是 1 而 不 是 =  。 所 以 我 们 已 经 知道 变 分 分 布 分 别 是 什么 : 

Qu (zz) 一 人 CU , 互 ) 


=] 
.= Ee 十 Dm ns) | 


266 及 一 下 Dem qum (Ww) 
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Qu (Wn) = Nw, ,Eo,) 
1 
5 = Ee 十 >)zm Gen) | 


je = Se 
对 于 Q，(qw ) 我 们 需要 做 一 些 工 作 。 记 得 式 (7-9)， 我 们 知道 Q,， (qn) 将 以 如 下 的 


Qs (qum) cc exp(Ea, (Qa, cw,) {log plysm |qnm) + log pw [tw » Xa)}) 
孤立 项 只 包含 g,,, ， 我 们 有 : 
QC ) OE Plo Nim )exp| 一 到 Cg — am (wo (x,))) 

这 是 (Wom i 乘 以 高 斯 的 形式 : 

Qs (qum) cc plynm |qrm) Nvwn) "(xn) ,1) 
到 此 ， 我 们 将 假设 y,, 二 1]。 因 此 ， 我 们 有 : 

Q， (qam) OC (gum > 0) Nw,)' (x,) ,1) 

= NN (Cw) lx,) ,1) 

其 中 AN (。) 用 来 表示 高 斯 的 截断 (参见 注解 7.3) 以 至 于 wm 必须 是 正 的 。 如 果 y,, = 二 一 1 
我 们 将 以 N ((w,)T(x,)，1) 的 形式 结束 一 一 一 个 具有 相同 均值 截断 的 高 斯 分 布 ， 以 至 于 
dm 必须 是 负 的 。 
注解 7. 3 (截断 高 斯 密度 ) : 截断 高 斯 密度 是 在 随机 变量 上 有 额外 限制 的 高 斯 密度 。 我 们 
只 对 划分 在 原点 上 或 下 的 高 斯 密度 感 兴趣 。 


1.4 











A (0.$, 1) 


N(0.5, 1) 


-4 4 

上 图 给 出 了 标准 的 高 斯 密度 (均值 为 0.5、 方 差 为 1 )， 以 及 正 相 关 和 反 相 关 的 截断 
密度 。 截 断 密度 和 标准 密度 有 相同 的 形状 ,但 两 个 都 较 高 。 这 是 因为 它们 必须 在 减少 的 
区 域 趋 于 1。 从 截断 高 斯 分 布 抽样 是 非常 简单 的 一 一 一 个 人 仅 能 从 未 截断 的 密度 抽样 ， 
并 丢弃 那些 不 满足 必要 限制 的 样本 。 正 相关 和 反 相 关 的 截断 高 斯 期 望 数据 在 下 式 给 出 : 








Ns(0,1) 
(=N po) (zr) = p+ 
和 Hi 
. MN, (0,1) 
( =,N ( 9 与 《 >》 和 王 下 ES 
ee Pe Ke 


其 中 ，A(0，1) 是 评估 在 a 的 标准 高 斯 概率 密度 函数 ，%(a) 是 评估 在 a 的 标准 正 态 条 
件 密度 函数 。 
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为 了 计算 Q(x,) 和 Qu (rw ) 需要 〈qwm)》。 这 是 作为 截断 高 斯 正 相 关 或 者 反 相 关 〈 依 
赖 于 yw 的 值 ) 的 期 望 值 。 计 算 它 的 通用 表达 式 在 注解 7.3 中 给 出 。 定 义 jorm 二 《wn) (zy》 
和 co 王 1， 这 些 是 : 





人 (0,1) 
Yrm = 1: 《gm)》 二 pm Try 
NM (0,1) 
pe ] : (qum > 一 Hnm $C— po) 


完成 这 个 表达 式 需 要 VB 算法。 在 7.7.2 节 中 我 们 将 给 出 一 个 使 用 该 算法 的 例子 。 


7.7.2 议会 数据 可 视 化 


研究 这 个 模型 的 目的 是 议会 成 员 的 投票 数据 。 我 们 将 考察 2005 一 2010 年 英国 议会 成 员 
的 投票 数据 。 为 了 说 明 用 一 个 合适 的 近似 以 及 处 理 缺 失 值 的 明显 优势 ,我 们 将 用 我 们 能 使 用 
的 可 视 化 数据 的 最 简单 的 方法 ， 即 标准 的 、 非 概率 的 主 成 分 ， 来 比较 这 个 模型 。 此 时 我 们 用 
0 表示 缺失 值 〈 例 如 ， 一 个 值 代 表 既 可 能 是 赞成 票 也 可 能 是 反对 票 ， 士 1) ， 并 且 对 于 数据 不 
是 真实 值 不 做 特殊 考虑 。 

考虑 到 问题 的 复杂 性 情况 ， 这 个 数据 集 由 657 个 议会 成 员 的 1288 次 投票 记录 组 成 。 每 
名 议会 成 员 的 票数 平均 值 是 853 (66%)， 最 积极 的 成 员 投 了 1237 次 票 (96%)， 最 不 积极 
的 成 员 投 了 20 次 (1.6%)。 

图 7-9a 给 出 了 在 这 个 数据 上 使 用 标准 PCA 的 结果 。 在 隐 空 间 中 呈现 出 明显 的 聚 类 结 
构 。 在 图 7-9b 中 我 们 用 他 们 所 属 的 政党 标注 出 议会 成 员 ， 并 且 清 楚 地 表明 聚 类 结构 符合 3 
个 主要 的 政党 (劳动 党 、 保 守 党 、 自 由 民主 党 ) 的 情况 。 聚 类 结构 表现 出 的 情况 不 足 为 奇 ， 
因为 议会 成 员 投 票 通常 是 以 政党 情况 分 布 。 然 而 ， 在 前 两 个 主 成 分 中 很 清楚 地 表现 出 这 种 情 
况 是 很 鼓舞 士气 的 。 
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a) 议会 成 员 数 据 分 布 的 前 两 个 主 成 分 b) 根据 政党 标注 议会 成 员 (3 个 政党 ) 
图 7-9 2005 年 的 议会 成 员 投票 数据 的 标准 主 成 分 ， 每 一 个 点 对 应 一 个 议会 成 员 
有 些 议会 成 员 似 乎 也 被 拉 到 了 原点 。 这 可 以 通过 叛逆 性 进行 解释 ， 这些 议 会 成 员 不 赞成 
以 前 的 政党 路 线 。 然 而 ,不幸 的 是 ， 这 些 议会 成 员 通常 只 是 简单 地 不 投票 。 为 了 说 明 这 点 ， 
如 图 7-10 所 示 ， 我 们 能 在 PCA 图 中 画 出 距离 原点 的 投票 数 。 很 明显 ， 大 量 的 缺失 值 对 分 析 
这 个 问题 没有 什么 帮助 一 一 隐 变 量 空间 中 的 位 置 是 政策 偏好 和 出 席 率 的 函数 。 
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图 7-10 与 (PCA 图 的 ) 原点 距离 相对 的 投票 数 

图 7-11a 给 出 了 利用 VB 二 值 PCA 算法 得 到 的 结果 (MATLAB 脚本 : mpvis.m)。 此 
图 又 一 次 清晰 地 展示 了 《x,〉 和 聚 类 结构 。 在 图 7-11b 中 我 们 能 看 到 通过 政党 标注 的 议会 成 
员 。 聚 类 结构 又 一 次 与 不 同 的 政党 政策 一 致 。 因 为 我 们 在 正确 地 模拟 缺失 值 ， 所 以 我 们 不 再 
得 到 趋 于 原点 的 数据 。 为 了 说 明 它 ， 图 7-12 展示 了 远离 原点 的 投票 数目 一 一 在 图 7-10 中 呈 








现 出 的 非常 清晰 的 关系 不 再 显著 。 图 7-11a 表现 出 的 差异 展示 了 政策 趋势 和 缺席 趋势 。 
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a) 隐 变 量 的 后 验 均 值 b) 根据 政党 标注 的 议会 成 员 〈3 个 主要 政党 ) 


图 7-11 2005 年 的 议会 成 员 投 票数 据 的 概率 性 二 值 主 成 分 可 视 化 ， 每 一 个 点 对 应 一 个 成 员 


通过 考虑 议会 中 一 些 更 小 的 党 可 以 更 好 地 说 明 这 些 。 图 7-13 突出 了 4 个 小 的 政党 的 位 
置 一 一 民主 工会 党 (DUP)、 威 尔 士 党 (PC)、 苏 格 兰 国家 党 (SNP) 和 社会 民主 劳动 党 
(SDLP)。 在 传统 的 PCA 分 析 中 ， 似 乎 DUP 成 员 的 票 在 保守 党 成 员 〈 见 图 7-9b) 的 聚 类 
内 ， 并 且 在 更 小 的 程度 上 ，PC 和 SNP 成 员 的 票 趋向 于 自由 民主 党 的 选择 。 然 而 ， 比 较 二 值 
PCA 算法 的 输出 ， 我 们 能 够 看 到 DUP 清晰 地 形成 自己 的 聚 类 ， 远 离 保 守 党 ， 同 时 SNP 和 
PC 的 成 员 形 成 了 他 们 的 一 个 很 紧密 的 聚 类 。 看 起 来 好 像 原 始 PCA 中 的 这 些 组 的 位 置 受 有 缺 
失 值 的 较 差 模型 影响 很 严重 。 
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图 7-12 概率 二 值 PCA 的 远离 原点 的 投票 数 
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a) 传统 PCA 模 型 中 小 的 政党 的 可 视 化 b) VB 二 值 PCA 模 型 下 小 政党 的 可 视 化 模型 
7-13 ”使 用 两 种 PCA 方法 可 视 化 小 的 政党 


最 后 ， 由 于 我 们 选择 模拟 缺失 值 的 方法 ， 所 以 我 们 对 每 一 个 议会 成 员 有 一 个 独立 的 协 方 
差 矩 阵 马 。 从 图 7-14 中 我 们 可 以 看 到 ， 用 椭圆 表示 最 不 确定 的 20 个 成 员 的 协 方差 矩阵 。 
这 些 成 员 很 少 投票 。 很 清楚 在 他 们 的 位 置 没有 真实 的 模型 ， 这 个 模型 没有 把 那些 没有 参与 投 
票 的 议会 成 员 拉 到 原点 。 

可 以 用 这 些 数据 做 更 有 趣 的 分 析 ， 但 这 超出 了 本 书 的 范围 。 重 要 的 一 点 是 ,一 个 基于 敏 
感 假 设 的 模型 能 够 正确 地 处 理 缺 失 值 (二 值 概率 PCA)， 可 能 比 用 基础 的 PCA 给 我 们 更 多 
议会 成 员 中 有 趣 变 量 的 信息 。 
7.7.2.1 题 外 话 一 一 与 分 类 的 关系 

在 我 们 结束 本 章 讨 论 之 前 ， 努 力 得 到 关于 模型 如 何 工作 的 直觉 是 值得 的 。 从 表面 上 看 ， 
这 个 方法 似乎 不 太 复 杂 ， 但 可 能 是 最 早 把 它 看 做 分 类 模型 的 方法 。 训 练 数据 由 没有 输入 特征 
的 M 个 分 类 标签 (对 应 每 一 张 选票 ) 组成。 该 模型 导出 一 套 隐 观 测 (x,) 和 M 个 分 类 函数 
(由 zw 定义 )， 以 至 于 我 们 能 够 满足 尽 可 能 多 的 类 标签 。 图 7-15 展示 了 4 个 选票 的 例子 ( 输 
和 特征) 和 隐 空 间 的 一 致 决策 边界 。 议 会 成 员 用 他 们 的 后 验 均 值 作 为 他 们 在 图 中 的 位 置 ， 并 
根据 他 们 选票 类 型 标注 〈 圆 或 者 正方 形 士 1， 浅 灰色 的 点 代表 缺失 值 ) 。 模 型 已 经 标注 出 了 议 
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图 7-14 最 高 不 确定 性 的 20 个 议会 成 员 的 具体 协 方差 矩阵 


会 成 员 在 隐 变 量 空间 的 位 置 ， 并 以 一 些 分 类 标签 尽 可 能 被 满足 的 方式 构造 决策 边界 。 满 足 所 
有 的 标签 不 总 是 可 能 的 ， 例 如 在 选票 1 边界 右 侧 的 圆 。 
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c) 投票 4 d) 投票 20 


图 7-15 4 种 选票 的 投票 情况 ， 每 一 个 议会 成 员 根据 他 们 选票 情况 被 划分 为 圆 或 者 
正方 形 〈 浅 灰色 的 点 代表 没有 投票 ) 
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7.8 小 结 


在 本 章 中 ， 我 们 用 主 成 分 分 析 方 法 (PCA) 和 某 些 概率 变量 介绍 隐 变 量 模型 的 概念 和 变 
分 贝 叶 斯 的 推理 技术 。 有 很 多 其 他 的 隐 变 量 模型 正在 用 于 各 种 各 样 的 应 用 中 ,尤其 在 信息 检 
索 领 域 应 用 很 多 ， 我 们 希望 再 次 引入 的 技术 能 使 读者 理解 更 多 具有 特别 应 用 的 模型 。 

变 分 贝 叶 斯 是 用 于 机 器 学 习 领 域 的 很 流行 的 推导 技术 。 用 某 些 近似 后 验 技术 ， 我 们 正在 
近似 精度 和 计算 复杂 度 之 间 做 一 个 权衡 。 根 据 经 验 表 明 ，VB 发 现 了 一 个 在 易 处 理性 和 精度 
之 间 好 的 权衡 。 记 住 其 他 方法 能 够 用 于 隐 变 量 模型 中 执行 推断 是 很 重要 的 一 一 我 们 已 经 在 第 
6 章 看 到 EM 算法 正在 用 于 混合 模型 。 而 且 ， 用 辅助 变量 代替 概率 似 然 当 然 不 是 我 们 克服 二 
值 似 然 的 唯一 方法 一 一 正如 我 们 在 第 4 章 中 看 到 的 。 


7.9 练习 


EX7.1 当 Q(9) 与 真实 后 验 概率 p(0|X) 相同 时 ， 计 算式 (7-6) 中 的 最 大 值 〈 即 真实 的 log 边缘 似 然 ) 。 
EX7.2 在 CC) 取 下 界 时 ,计算 7.5 节 给 出 的 概率 PCA 模型 中 的 每 一 项 。 
EX 7.3 计算 式 (7-15) 给 出 的 带 有 缺失 值 的 概率 PCA 模型 的 变 分 后 验 概率 的 每 一 项 。 
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一 个 最 大 似 然 的 有 趣 应 用 。 它 是 最 早 使 用 概率 方法 解决 主 成 分 分 析 的 经 典 统计 问题 的 方法 之 一 。 


词 汇 表 


Analytical solution (解析 解 ) 一 个 数学 问题 〈 例 如 ， 优 化 一 个 量 或 评价 一 个 积分 ) 的 解析 解 是 指 某 个 可 以 
被 确切 求 得 的 解 。 我 们 要 处 理 的 多 数 问题 不 具有 人 解析 解 ， 因 此 有 必要 使 用 迭代 算法 或 采样 技术 。 

Biased (有 偏 的 ) 一 个 估计 (例如 第 2 章 中 的 ce) 是 有 偏 的 ， 如 果 它 的 期 望 值 不 等 于 真实 值 。 

Binomial distribution (二 项 分 布 ) 一 个 常用 的 概率 分 布 ， 用 来 描述 一 个 二 值 实验 集合 中 成 功 的 次 数 。 

Burn-in (老化 ) 当 使 用 MCMC 方法 产生 样本 时 ， 它 通常 丢掉 前 面 的 N 个 点 ， 因 为 算法 可 能 还 没有 收敛 ， 
所 以 它们 不 具有 代表 性 。 确 定 'N 不 是 轻而易举 的 。 

Conditional independence (条 件 独立 ) ”在 给 定 条 件 C 的 情况 下 ， 两 个 〈 或 多 个 ) 随机 变量 A 和 B 是 条 件 独 
立 的 ， 如 果 它 们 的 联合 分 布 可 以 分 解 为 P(A，B|C) 二 P(A|C)P(B|C)。 条 件 独立 并 不 意味 着 非 条 件 
独立 。 

Conditional probabilities (条 件 概率 ) 用 来 描述 依赖 其 他 事件 结果 的 事件 概率 。 例 如 ， 如 果 随 机 变量 A 的 
值 依赖 于 随机 变量 B 的 值 ， 那 么 给 定 B 的 值 ，A 的 概率 可 以 写成 P(A|B)。 

Conjugate ( 共 轿 ) 一 个 先 验 与 似 然 是 共 罗 的 ， 如 果 它 们 产生 的 后 验 具 有 与 先 验 相同 的 形式 。 

Continuous random variables (连续 随机 变量 ) 定义 在 不 可 枚 举 样本 空间 上 的 随机 变量 。 例 如 ， 定 义 在 所 有 
实数 上 的 随机 变量 。 

Convergence (sampler) (收敛 (抽样 器 ) ) ”如 果 一 个 抽样 器 生成 的 样本 都 来 自 于 同一 个 分 布 ， 那么 就 说 这 
个 抽样 器 收 剑 了 。 在 抽样 器 收敛 之 前 生成 的 样本 不 应 该 使 用 。 

Covariance ( 协 方差 ) ”对 于 多 个 变量 的 分 布 ， 协 方差 是 方差 的 一 种 通用 形式 。 协 方差 矩阵 描述 了 不 同 变量 
之 间 如 何 共 变 的 ， 即 它们 是 如 何 关联 的 。 

Cross-validation (交叉 验证 ) 一 项 用 于 验证 和 模型 选择 的 技术 。 将 数据 随机 分 为 K 组 。 然 后 ， 对 模型 训练 
K 次 ， 每 次 留 下 一 组 数据 。 

Decision boundary (决策 边界 ) 在 决策 问题 中 分 开 两 类 的 直线 。 

Deterministic (确定 性 的 ) 非 随机 的 。 例 如 ， 第 1 章 中 的 模型 ，t 二 w'x 是 确定 性 的 。x 的 相同 值 总 会 给 出 
相同 的 上: 值 。 

Discrete random variables (离散 随机 变量 ) 定义 在 可 枚 举 样本 空间 上 的 随机 变量 。 

Discriminative classifier (判别 式 分 类 器 ) ” 显 式 定 义 〈 并 优化 ) 类 别 间 决策 边界 的 分 类 器 。 

Expectation (期 望 值 ) 对 于 一 个 (离散 ) 随机 变量 X，X 的 函数 /(X) 的 期 望 值 定义 为 : 


Ew {f(X)} = DIP(z) fz) 


可 以 把 它 看 做 是 根据 X 取 不 同 值 可 能 性 的 加 权 平 均 。 对 于 连续 随机 变量 ,将 求 和 变 为 积分 。 

Feature selection (特征 选择 ) ”在 一 些 分 类 问题 中 ,减少 属性 数量 是 有 作用 的 。 这 个 过 程 即 为 特征 选择 。 

Fisher information (Fisher 信息 ) Fisher 信息 用 来 度量 随机 变量 对 某 一 模型 参数 提供 的 信息 量 大 小 。 

Function (函数 ) 一 种 定义 两 个 或 多 个 变量 之 间 关 系 的 方法 。 例 如 ， 

t= f(x) 
告诉 我 们 t 依赖 于 zz 如 果 知 道 xz， 就 可 以 计算 1。 

Generalisation ( 泛 化 ) 泛 化 是 指 把 从 对 象 集合 学 习 到 的 结果 应 用 到 以 前 从 未 见 过 对 象 的 能 力 。 例 如 ,第 1 
章 中 的 奥林匹克 模型 ， 如 果 它 能 很 好 地 预测 今后 的 短跑 比赛 ,那么 它 的 泛 化 能 力 就 好 。 换 句 话 说， 一 
个 具有 好 的 泛 化 能 力 的 算法 应 该 能 对 以 前 未 见 过 的 数据 进行 良好 地 预测 。 

Global optimum (全 局 最 优 ) 一 个 函数 可 以 有 多 个 极 大 点 (或 极 小 点 ) ， 全 局 最 优 是 指 其 中 最 大 的 “或 最 小 的 ) 。 

Graphical model (图 模型 ) 概率 的 图 形 表 示 ， 其 中 结 点 对 应 于 随机 变量 ， 有 向 边 对 应 于 依赖 关系 。 

Hessian matrix (Hessian 矩阵 ) ”函数 对 每 对 变量 的 二 阶 偏 导 和 矩阵 。 由 19 世纪 德国 数学 家 Ludwig Otto 
Hesse 提 出 并 用 他 的 名 字 命 名 。 

Hyper-parameter ( 超 参 数 ) 用 来 控制 在 分 层 贝 叶 斯 模型 中 另 一 个 参数 先 验 的 参数 。 





186 ， 词汇 表 


Information theory (信息 论 ) 信息 的 量化 研究 。 特 别 是 ， 随 机 变量 的 信息 含量 与 其 概率 分 布 有 关 。 具 有 很 
强 不 确定 性 的 分 布 具有 高 信息 含量 。 
Joint probability (联合 概率 ) ”两 个 随机 变量 A 和 B 的 联合 概率 为 它们 分 别 取 特 定 值 的 概率 。 例 如 ，A 取 值 
a 和 B 取 值 b 的 概率 ， 这 个 概率 写成 P(A==a，B=b)。 
Likelihood ( 似 然 ) 数据 的 概率 密度 (或 离散 情况 下 的 分 布 ) 值 ， 它 以 模型 参数 为 条 件 ， 这 些 参 数 根据 该 
数据 进行 评估 。 它 是 一 个 数值 ， 通 过 调整 参数 对 其 优化 ， 从 而 获得 最 大 似 然 解 。 
Linear (线性 ) ”一 个 函数 上 一 jz) 是 线性 的 ， 如 果 它 满足 下 面 的 条 件 : 
Czi 十 za) 王 zi) 十 (zz) 
flax) = af (zx) 
常见 的 例子 是 f(x) 二 wz。 
Mahanalobis distance ( 马 氏 距离 ) 两 个 对 象 x, 和 xn 间 的 马 氏 距离 定义 为 : 
Cx; = KE) AUX — wx) 
如 果 用 工 蔡 代 4 ， 就 可 以 获得 标准 的 欧式 距离 的 平方 。 和 矩阵 4 的 作用 就 是 对 空间 的 扭曲 ， 即 各 个 方向 
上 的 距离 不 等 。 距 离 点 x, 具有 相同 欧式 距离 的 点 集 构成 一 个 圆 。 距 离 点 x 具有 相同 马 氏 距离 点 集 构 
成 一 个 椭圆 ， 其 形状 由 和 矩阵 A 决定。 
Marginal likelihood (边缘 似 然 ) 贝 叶 斯 规则 的 分 母 。 进 行 模型 比较 和 选择 的 有 用 量 。 
Marginalisation (边缘 化 ) 通过 在 一 个 随机 变量 的 所 有 可 能 取 值 空间 上 对 联合 分 布 求 和 连续 的 情况 为 积 
分 )， 消 去 联合 分 布 中 该 随机 变量 的 过 程 称 为 边缘 化 。 例 如 ， 
P(A=a)= DP(A=a,B=0) 


Maximum likelihood (最 大 似 然 ) 一 种 常用 的 参数 估计 方案 ， 该 方法 选择 使 数据 似 然 值 最 大 的 参数 。 

Maximum a posteriori (最 大 后 验 ) 一 种 常用 的 参数 值 的 点 估计 方法 ， 通 过 引入 正则 先 验 来 扩展 最 大 似 然 。 

Metropolis-Hastings ”一 种 常用 的 根据 密度 产生 样本 的 算法 ， 无需 对 归 一 化 常数 进行 评价 。 

Model complexity (模型 复杂 度 ) ”用 来 描述 模型 复杂 程度 的 术语 。 例 如 ,1 二 ww 十 wx 比 t 二 wo 十 wizx 十 
wT? 的 复杂 度 低 ， 因 此 它 无 法 发 现 数据 中 与 后 者 同等 复杂 的 模式 。 

Model selection (模型 选择 ) ”模型 选择 是 指 在 特定 任务 中 选择 哪个 模型 。 备 选 模 型 可 以 来 自 同一 族 , 但 并 


不 是 必须 的 。 例 如 ， 如 果 我 们 想 用 多 项 式 函 数 1 二 》) wix* ， 选 择 适当 的 K 值 就 是 模型 选择 问题 。 


Model (模型 ) 某 个 过 程 的 数学 描述 。 例 如 ， 在 第 1 章 中 ， 我 们 提出 模型 :一 wo 十 wz 来 表示 100 米 短跑 时 
间 与 奥林匹克 年 x 之 间 的 关系 。 

Mode ( 众 数 ) 一 个 随机 变量 分 布 的 众 数 是 指 最 可 能 的 值 。 

Monotonic function (单调 函数 ) 单调 函数 是 指 无 限 地 下 降 或 上 升 。 一 个 通用 例子 是 log(z)， 它 总 是 随 着 x 
的 增 大 而 增 大 。 一 个 有 用 的 性 质 是 使 f(x) 最 小 的 同样 使 log(CFCz)) 最 小 。 

Monte Carlo approximation (蒙特 卡 罗 近 似 ) ”通过 从 一 个 近似 分 布 采样 来 近似 一 个 期 望 。 一 个 形 如 


En (f(x)} = | readzdz 
的 期 望 可 以 通过 下 式 近 似 


其 中 ，z，…，xzs 是 S 个 来 自 p(x) 的 样本 。 

Multinomial distribution (多 项 分 布 ) 整数 向 量 的 常用 分 布 。 例 如 ， 如 果 我 们 扔 N 次 山子 ， 并 且 用 一 个 6 维 
向 量 记录 我 们 得 到 每 一 面 的 次 数 ， 这 个 向 量 可 以 用 一 个 多 项 分 布 的 随机 变量 描述 。 

Natural logarithm (自然 对 数 ) ”以 。 为 底 的 对 数 ， 这 里 记 作 log， 但 经 常 记 作 ln。 

Noise (噪声 ) ”认为 不 是 当前 问题 感 兴 趣 数 据 中 的 变异 。 例 如 ， 由 于 测量 误差 引起 的 随机 波动 。 

Over-fitting (过 拟 合 ) 一 个 模型 是 过 拟 合 的 ， 如 果 它 过 于 复杂 ， 并且 用 其 过 剩 的 复杂 性 来 拟 合 噪声 。 过 拟 
合 的 模型 往往 泛 化 性 能 很 差 。 

Parameters (参数 ) ”用 来 定义 模型 的 变量 。 例 如 ， 下 面 模型 


t= wT wix 


具有 两 个 参数 一 一 zw 和 wi 。 
Partial derivatives ( 偏 导 数 ) ”对 一 个 多 元 函数 求 偏 导 即 对 每 一 个 变量 求 导数 ， 同 时 其 余 变量 被 看 做 常数 。 
例如 ， 如 果 函 数 t 二 f(x，y) 定义 为 : 
#= 2 -3 十 
那么 相对 于 xz 和 y 的 偏 导数 如 下 : 


of (Ty) dy 
ox 


34， = 


Plate (盘子 ) 在 图 模型 中 ， 特 定 类 型 随机 变量 的 许多 实例 的 简略 表示 。 
Polynomial (多 项 式 ) 一 个 多 项 式 函数 1 二 /(zx) 具有 1 二 》) wzx* 的 形式 。 常 见 的 例子 是 1 阶 (线性 ) 多 


项 式 1 二 ww 十 wz 二 》) wizx* ( 称 为 1 阶 ,因为 工 的 最 高 次 宕 为 1)，2 次 〈2 阶 ) 多 项 式 1 一 wr 十 wz 十 


2 
wx = > wx* 。 注 意 xX "= 二 1。 
k=0 


Posterior distribution (后 验 分布 ) 是 指 观测 到 数据 后 ， 参 数值 的 分 布 。 
Precision (精度 ) 在 分 层 贝 叶 斯 模型 中 ， 通 常用 精度 比方 差 更 方便 。 精 度 可 以 定义 如 下 : 


因此 ,一 个 具有 均值 为 uy、 方差 为 a 的 高 斯 分 布 也 可 以 用 精度 t 表示 为 : 
Nur ) 

Prior distribution ( 先 验 分 布 ) ”在 观测 数据 之 前 ,根据 我 们 的 知识 描述 参数 值 的 分 布 。 

Probability density function (概率 密度 函数 ) ”概率 密度 函数 描述 了 连续 随机 变量 在 样本 空间 上 概率 质量 的 分 
布 。 概 率 密 度 函 数 必须 大 于 0， 且 在 整个 样本 空间 上 积分 为 1。 

Probability distribution (概率 分 布 ) 用 来 描述 随机 变量 特性 的 函数 或 一 组 值 。 

Probability (概率 ) 一 个 事件 发 生 的 概率 是 一 个 0~!1 的 值 ， 用 来 表示 该 事件 发 生 的 可 能 性 。 

Projection algorithms (投影 算法 ) ”把 数据 从 M 维 空间 投影 到 DD 维 空间 (DM) 的 一 系列 机 器 学 习 算法 。 
投影 技术 可 以 用 于 可 视 化 〈D=2)， 也 可 以 用 于 数据 预 处 理 ， 如 分 类 。 

Quadratic (二 次 ) 二 次 函数 1 二 f(zr) 是 工 的 最 高 次 数 为 2 的 多 项 式 函 数 。 例 如 ,t+ 二 zx? 和 tr 十 zz 十 
wx! 都 是 二 次 函数 。 

Random events (随机 事件 ) 我们 不 能 (或 不 想 或 不 需要 ) 给 出 事件 的 确定 性 模型 。 例 如 ， 扔 骨 子 或 投 硬 
币 。 虽 然 我 们 不 知道 这 些 事件 的 输出 结果 ， 但 我 们 可 能 知道 不 同 结果 的 相对 似 然 值 。 

Random variable (随机 变量 ) ”存储 随机 事件 结果 的 变量 。 例 如 ， 如 果 我 们 抛 一 个 硬币 ， 并 给 变量 X 赋值 
为 1， 若 硬币 正面 朝 上 ; 赋值 为 0， 若 背 朝 上 ，X 是 一 个 随机 变量 。 

Random walk (随机 漫步 ) 一 个 样本 序列 ， 每 个 样本 都 依赖 于 它 前 面 的 那个 样本 。 

Regularisation (正则 化 ) ”对 参数 值 加 以 限制 ， 以 限制 模型 的 最 大 复杂 性 。 

Sample space (样本 空间 ) 一 个 随机 变量 所 有 可 能 取 值 的 空间 。 换 句 话 说 ， 是 一 个 特别 的 随机 事件 可 能 输 
出 的 集合 。 

Statistics (统计 学 ) 描述 了 一 系列 关于 数据 收集 与 解释 的 方法 和 原理 。 

Supervised learning (有 监督 的 学 习 ) 提供 了 数据 对 象 及 相关 标记 的 机 器 学 习 任 务 。 , 

Symmetric matrix (对 称 和 矩阵 ) 一 个 方 阵 羡 是 对 称 的 ， 如 果 对 于 所 有 的 i、j 有 zj 二 x; 。 如 果 是 对 称 和 矩阵 ， 
那么 有 XX' 二 XX。 

Unbiased (无 偏 的 ) 从 平均 的 角度 讲 ， 如 果 一 个 估计 (例如 ， 碗 ) 等 于 其 真实 值 ， 则 该 估计 是 无 偏 的 。 

Unsupervised learning (无 监督 的 学 习 ) 不 需要 标记 数据 的 机 器 学 习 算法 。 包 括 聚 类 和 投影 。 

Validation data (验证 数据 ) 用 于 帮助 选择 模型 类 型 和 参数 的 数据 ， 不 直接 用 于 训练 模型 。 

Variance (方差 ) 随机 变量 和 其 均值 之 间 差 值 平方 的 均值 。 
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definite integrals ( 定 积 分 )，57 

dependence (依赖 )，46 

absolute loss (绝对 损失 )，5 Dirichlet distribution ( 狄 利克 雷 分 布 )，178 
attributes (属性 )，1，84，208 

auxiliary variables (辅助 变量 )，265 


A 


攻 


Eigenvectors and eigenvalues 〈 特 征 向 量 与 特征 值 )，244 


二 evidence (证 据 )，105 
bag-of-words ( 词 袋 )，176 expectation 〈 期 望 ) 
Bayes?rule 〈 贝 叶 斯 规则 )，49，98，120，140，170 with respect to posterior (相对 于 后 验 ) ，109 
Bayesian classifier ( 贝 叶 斯 分 类 器 ) ，170 expectations (期 望 )，50 
Bayesian inference 〈 贝 叶 斯 推理 ) ，139 continuous (连续 )，58 
Bayesian Machine Learning 〈 贝 叶 斯 学 习 )，98 for predictions (面向 预测 )，98，152 
Bernoulli distribution 〈 伯 努 利 分 布 )，53，230 with respect to posterior (相对 于 后 验 )，129 
beta distribution (8 分 布 )，60，100 
bias-variance trade-off (偏差 -方差 平衡 )，75 F 


Binomial distribution (二 项 分 布 )，53，95 
Fisher information ( 费 舍 尔 信息 )，80 


人 function (函数 )，2 
linear (线性 )，1 
polynomial (多 项 式 )，25 
quadratic (二 次 )，25 


causality (因果 关系 )，2 
chain rule (differentiation) ( 链 式 规则 (微分 ))，146 
classification (分 类 )，140，169 


discriminative versus generative (判别 式 与 产生 G 
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non-probabilistic ( 非 概 率 的 )，183 Gaussian (高 斯 )，61 

probabilistic (概率 的 )，170 likelihood ( 似 然 )，124 

text (文本 )，175 noise (噪声 ) ，66 ，69 
classification accuracy (分 类 准确 率 )，198 process (过 程 )，182 
clustering 〈 聚 类 ) ，207 truncated (截断 )，267 

similarity measures (相似 性 度量 )，209 generalisation ( 泛 化 )，28，34,，74,，75，196 
combinations (组 合 )，55 generative model (产生 式 模 型 )，40，216 


confusion matrix (混淆 矩阵 ) ，201 
conjugate prior ( 共 斩 先 验 ) ，102 
non-conjugate models ( 非 共 轿 模 型 )，139 


graphical models (图 模型 )，120，253 
plates (模板 )，121 


covariance ( 协 方差 )，52，78 H 
Gaussian (高 斯 )，62 
cross-validation (交叉 验证 )，29，131，185，196，228 hyper-parameters 〈 超 参数 )，119 


computational scaling (计算 缩放 )，32 


leave-one-out ( 留 一 法 )，31 | 


independence (独立 )，46 
in Variational Bayes (在 变 分 贝 叶 斯 中 )，251 
decision boundary (决策 边界 )，147 multivariate Gaussian (多 元 高 斯 )，64 


D 


information theory (信息 论 )，80 
J 

Jensen’”s inequality (人 詹 森 不 等 式 )，219,，250 
K 


K-means (K 均值 )，208 

K-nearest neighbours (K 近邻 ;，183 

kernel density estimation ( 核 密度 估计 )，163 

kernel K-means ( 核 KK 均值 )，212 

kernel KNN ( 核 K 近邻 )，196 

kernel methods 〈 核 方法 ) ，186，193，212 

Kullback-Leibler divergence ( Kullback-Leibler 散 
度 )，251 


L 


Lagrange multipliers ( 拉 格 朗 日 乘 子 法 ) ，188，223 
Laplace approximation ( 拉 普 拉 斯 近似 )，149 
for logistic regression (面向 逻辑 回归 )，151 
latent variables 〈 隐 变量 ) ，248 
likelihood 〈 似 然 ) ，67 
binary (二 值 )，142 
classification (分 类 )，171 
in Bayes?rule (在 贝 叶 斯 规则 中 )，99 
log (对 数 )，69 
linear (线性 ) 
nonlinear responses 〈 非 线性 响应 ) ，25 
linear model (线性 模型 )，85 
linear modelling (线性 建 模 )，1]，25 
logistic regression ( 逮 辑 回归 ) ，179 


M 


margin (间隔 )，186 
maximisation (最 大 化 )，187 
soft ( 软 )，192 
marginal distribution (边缘 分 布 )，101 
marginal likelihood (边缘 似 然 )，101，117，141， 
171, 249 
matrix (和 矩阵 )，16 
determinant (行列 式 )，64 
Fisher information ( 费 舍 尔 信息 )，80 
Hessian, 72, 80, 144 
identity (单位 )，21 
inversion ( 逆 )，22 
multiplication ( 乘 ) ，18 
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notation (符号 )，15 
symmetric (对 称 )，71 
trace (了 迹 )，88 
transpose ( 转 置 )，18 
maximum likelihood (最 大 似 然 )，69 
bias of estimator (估计 子 的 偏差 );，86，88 
bias of variance estimate (方差 估计 偏差 );，82 
maximunra-posteriori 〈 最 大 后 验 )，126，143，178，232 
Metropolis-Hastings，154 
mininiura loss (最 小 损失 )，6 
equivalence to Gaussian ML (等 价 高 斯 最 大 似 
然 )，70 
missing data (缺失 数据 ) ，260 
mixture model (混合 模型 ) 
likelihood 〈 似 然 )，217 
mixture models 〈 混 合 模型 )，207，215 
Bayesian treatment ( 贝 叶 斯 处 理 ) ，233 
model assumptions (模型 假设 )，3 
model complexity (模型 复杂 度 ) ，33， 196 
model selection (模型 选择 )，25 
difficulty (困难 )，31 
K-means (K 均值 )，210 
via marginal likelihood (通过 边缘 似 然 )，117 
with likelihood (利用 似 然 )，74 
with loss (利用 损失 )，28 
Monte-Carlo (蒙特 卡 罗 )，58 
mRNA data (mRNA 数据 )，208 
multinomial distribution (多 项 分 布 )，54，177 
multivariate Gaussian (多 元 高 斯 )，62 
covariance ( 协 方差 )，62,，78 
independence (独立 )，62 


N 


Naive Bayes (朴素 贝 叶 斯 )，175 
Naive Bayes classifier (朴素 贝 叶 斯 分 类 器 ) ，175 
Newton-Raphson, 144 
noise (噪声 )，39，76，82，85 
additive (可 加 性 )，66 
Gaussian (高 斯 )，85 
nonlinear responses ( 非 线 性 响应 )，27 
normal 〈 正 态 ) ， 见 Gaussian 


O 


overfitting 〈 过 拟 合 ) ，28，33，34，74，75，196，228 
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parameter (参数 )，2 
point predictions (点 预测 )，12，110 
posterior approximation (后 验 近 似 ) 
Laplace ( 拉 普 拉 斯 )，149 
sampling (采样 ) ，156，163 
posterior distribution (后 验 分 布 )，101 
exact computation (精确 计算 )，103，120 
expectation with respect to (期 望 相对 于 )，109 
sampling from (从 … 采 样 )，127 
predictions (预测 )，1 
uncertainty (不 确定 性 )，84，85 
Principal Components Analysis ( 主 成 分 分 析 )，242 
prior distribution ( 先 验 分 布 )，75，99 
choice (选择 )，111 
conjugate ( 共 力 )，139，173 
strength (强度 )，113,，116 
probability (概率 )，39 
conditional (条 件 )，44 
joint (联合 ) ，45 
probit (概率 )，265 
projection (投影 )，239 


R 


random variable (随机 变量 )，41 
continuous (连续 )，42，55 
density (密度 )，55 
discrete (离散 )，41 
distributions (分 布 )，42 
marginalisation (边缘 化 )，47 
marginalisation，continuous (边缘 化 ， 连 续 ) ，58 
vectors (向 量 )，52 
regression (回归 ) 
logistic (人 逻辑 )，179 
regularisation 《正则 化 )，33，75 
ROC analysis (ROC 分 析 ) ，199 
AUC (曲线 下 面积 )，200 


S 


sampling (采样 ) ，59，153，154 
burn-in (老化 ) ，161 
convergence (收敛 ) ，161 
from posterior (从 后 验 )，153 
visualising output (输出 可 视 化 )，163 
sensitivity and specificity (敏感 性 和 特异 性 )，198 
sigmoid (sigmoid 函数 ) ，142 
smoothing (平滑 )，177 
squared loss (平方 损失 )，4 
matrix form (和 矩阵 形式 )，19 
minimising (最 小 化 )，6 
Support Vector Machines (支持 向 量 机 )，186 


T 


Taylor expansion (泰勒 展开 )，150 
turning points (拐点 )，6 


U 


uncertainty (不 确定 性 )，48 
in parameters (参数 中 )，39，76，78，80，82，148 
in predictions (预测 中 )，39，83，85，152 
uniform distribution (均匀 分 布 )，58 


V 


validation (验证 ) ，29 
variance (方差 )，51 
reduction in posterior (在 后 验 中 减少 )，105 
Variational Bayes ( 变 分 贝 叶 斯 )，249 
vector (向 量 )，16 
differentiation with respect to (关于 … 的 微 
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indexing (索引 )，17 
inner product (内 积 )，18 
transpose ( 转 置 )，16 
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